얄리 대용량 크롤러는 트위터, 페이스북, 블로그, 뉴스, 증권 등 다양한 웹데이터를 수집하는 솔루션입니다.
얄리 대용량 크롤러의 주요 특징
- 메시지큐를 이용한 모듈별 다중 프로세스 처리
- 데이터는 다양한 형태로 가공되어 파일 시스템에 저장(XML 포맷 등)
얄리 대용량 크롤러의 주요기능
구분 | 설명 |
---|---|
대상 문서 | ㆍ트위터, 페이스북, 블로그, 뉴스, 증권 사이트 등 |
수집 속도 | ㆍ저 사양의 PC에서도 작동 ㆍ다수의 PC를 이용해서 빠른 속도로 중복 없이 크롤링 가능 |
고려 사항 | ㆍ크롤링 대상 페이지의 robots.txt 규약 준수 |
얄리 대용량 크롤러의 구축 사례
- KT에 공급