728x170
스크래피(Scrapy)
스크래피(Scrapy)는 웹 사이트를 돌아다니면서 구조화된 데이터를 추출하기 위해 파이썬(Python)으로 작성한 애플리케이션 프레임워크이다. 그리고 나서 이 데이터를 데이터 마이닝, 정보 처리, 이력 기록 등 일련의 유용한 애플리케이션에 활용할 수 있다. 본래 화면 스크랩(좀 더 정확히 말하자면 웹 스크랩)용으로 개발된 스크래피는 API를 이용한 데이터 추출(아마존 어소시에이츠 웹 서비스(Amazon Associates Web Services))에 사용하거나 일반 용도의 웹 크롤러(Web Crawler)로 사용할 수 있다. 스크래피는 스크래핑허브(Scrapinghub), 플래스(Flax), 고스크레이프(GoScrape) 등 많은 기업들이 상용 지원을 제공하고 있다.
[소스] https://github.com/scrapy/scrapy
[개발문서] http://doc.scrapy.org/en/latest/
반응형
[깃허브 소스]
https://github.com/teampopong/crawlers
[phantomjs를 이용한 크롤러 소스]
- 리눅스에서는 phantomjs 빌드 필요
https://github.com/qwefgh90/SeleniumSample
[참고기사자료]
http://www.itworld.co.kr/slideshow/87408?slide=3#stage_slide
[관련글]
728x90
반응형
그리드형
'IT박사' 카테고리의 다른 글
[무료 소프트웨어] 최고의 무료 프로그램 모음 TOP 70 - (Feat.생산성,오피스,메신저,편집,음악 등) (0) | 2021.06.16 |
---|---|
[권박사의 초이스] 최고의 빅데이터 분석용 오픈소스 BEST 15 (0) | 2021.06.11 |
[간트차트] 간트차트 무료 소프트웨어 TOP 5 (2) | 2021.05.31 |
[SW] 개발자가 꼭 알아두어야하는 개발툴 TOP 15 (0) | 2021.05.17 |
[최신기술뉴스] 2021년 당신이 알아야할 최신 기술 BEST TOP 5 (0) | 2021.04.05 |
댓글