본문 바로가기
IT박사

[웹크롤러] 파이썬 공개 웹 크롤러 추천!! 스크래피(Scrapy) 오픈소스

by GDBS 2021. 6. 10.
728x170

 

스크래피(Scrapy)

 

스크래피(Scrapy)는 웹 사이트를 돌아다니면서 구조화된 데이터를 추출하기 위해 파이썬(Python)으로 작성한 애플리케이션 프레임워크이다. 그리고 나서 이 데이터를 데이터 마이닝, 정보 처리, 이력 기록 등 일련의 유용한 애플리케이션에 활용할 수 있다. 본래 화면 스크랩(좀 더 정확히 말하자면 웹 스크랩)용으로 개발된 스크래피는 API를 이용한 데이터 추출(아마존 어소시에이츠 웹 서비스(Amazon Associates Web Services))에 사용하거나 일반 용도의 웹 크롤러(Web Crawler)로 사용할 수 있다. 스크래피는 스크래핑허브(Scrapinghub), 플래스(Flax), 고스크레이프(GoScrape) 등 많은 기업들이 상용 지원을 제공하고 있다.

 

[소스] https://github.com/scrapy/scrapy

 

scrapy/scrapy

Scrapy, a fast high-level web crawling & scraping framework for Python. - scrapy/scrapy

github.com

[개발문서] http://doc.scrapy.org/en/latest/

 

Scrapy 2.5 documentation — Scrapy 2.5.0 documentation

© Copyright 2008–2021, Scrapy developers. Revision 5fd75f86. Last updated on Apr 07, 2021.

doc.scrapy.org

반응형

 

[깃허브 소스]

https://github.com/teampopong/crawlers

 

[phantomjs를 이용한 크롤러 소스]

- 리눅스에서는 phantomjs 빌드 필요

https://github.com/qwefgh90/SeleniumSample

 

qwefgh90/SeleniumSample

a set of samples about Login & Cookie with PhantomJS - qwefgh90/SeleniumSample

github.com

 

[참고기사자료]

http://www.itworld.co.kr/slideshow/87408?slide=3#stage_slide

 

꼭 확인해 봐야 할 7가지 멋진 오픈소스 프로젝트

오픈소스 세계는 엄청난 속도로 계속 확대되고 있다. 이들 오픈소스 소프트웨어는 제품 및 기술 개발을 위한 중요한 "출발"점이 되고 있. 또한 그것들은 소중한 지원과 아이디어의 원천이 될 수

www.itworld.co.kr

 

 

[관련글]

728x90
반응형
그리드형

댓글