본문 바로가기
IT박사

[웹크롤러] 웹 사이트를 빠르게 긁어 모으는 상위 20 웹 크롤링 도구

by GDBS 2020. 7. 24.
728x170

 

웹 크롤링은 오늘날 많은 분야에서 광범위하게 적용되고 있습니다만,

웹 크롤러 도구가 공개되기 전에는 프로그래밍 기술이 없는 사람들에게는 그저 마법의 단어였던 시절도 있었습니다.

현존하는 최고의 웹 크롤러 TOP 20을 소개할까 합니다.

 

 

1. Octoparse

https://www.octoparse.com/

 

Web Scraping Tool & Free Web Crawlers | Octoparse

 

www.octoparse.com

귀여운 아이콘으로 혼동하지 마십시오. Octoparse 는 웹 사이트에서 필요한 거의 모든 종류의 데이터를 추출 할 수있는 강력한 웹 사이트 크롤러 입니다. 
Octoparse를 사용하여 광범위한 기능을 갖춘 웹 사이트를 리핑 할 수 있습니다. 프로그래머가 아닌 사용자가 빠르게 선택할 수 있도록 마법사 모드와 고급 모드의 두 가지 작동 모드가 있습니다. 
사용자 친화적 인 포인트 앤 클릭 인터페이스는 전체 추출 과정을 안내합니다. 결과적으로 웹 사이트 컨텐츠를 쉽게 가져 와서 짧은 시간 내에 Excel, TXT, HTML 또는 데이터베이스 와 같은 구조화 된 형식으로 저장할 수 있습니다 . 
또한 예약 된 클라우드 추출 을 제공 하여 동적 데이터를 실시간 으로 추출 하고 웹 사이트 업데이트에 대한 추적 기록을 유지할 수 있습니다. 
내장 된 Regex 및 XPath 구성을 사용하여 요소를 정확하게 찾아서 복잡한 구조의 복잡한 웹 사이트를 추출 할 수도 있습니다. 더 이상 IP 차단에 대해 걱정할 필요가 없습니다. 
Octoparse는 IP 프록시 서버를 제공하여 IP를 자동화하여 공격적인 웹 사이트에 의해 감지되지 않습니다. 결론적으로 Octoparse는 코딩 기술 없이도 기본 또는 고급 사용자 크롤링 요구를 대부분 충족시킬 수 있어야합니다.

 

 

2. Cyotek WebCopy

https://www.cyotek.com/

 

Cyotek • Home of WebCopy, CopyTools and Gif Animator

Products We offer a number of innovative products, including Spriter, a sprite sheet generator, WebCopy to copy websites for offline use, CopyTools to backing up your files, Gif Animator for creating animations, and more. View Products

www.cyotek.com

 

 

 

WebCopy 는 이름과 같은 설명입니다. 오프라인 참조를 위해 부분 또는 전체 웹 사이트를 하드 디스크에 로컬로 복사 할 수있는 무료 웹 사이트 크롤러입니다.
봇에게 크롤링 방법을 알려주도록 설정을 변경할 수 있습니다. 그 외에도 도메인 별칭, 사용자 에이전트 문자열, 기본 문서 등을 구성 할 수도 있습니다.
그러나 WebCopy에는 가상 DOM 또는 모든 형태의 JavaScript 구문 분석이 포함되지 않습니다. 웹 사이트에서 JavaScript를 많이 사용하여 작동하는 경우 WebCopy가 실제 사본을 만들 수 없을 것입니다. JavaScript를 많이 사용하여 동적 웹 사이트 레이아웃을 올바르게 처리하지 못할 가능성이 있습니다.


3. HTTrack

https://www.httrack.com/

 

HTTrack Website Copier - Free Software Offline Browser (GNU GPL)

Version 3.49-2 (05/20/2017) Engine fixes (keep-alive, redirects, new hashtables, unit tests) Installing HTTrack: Go to the download section now! For help and questions: Visit the forum, Read the documentation, Read the FAQs, Browse the sources Welcome HTTr

www.httrack.com

웹 사이트 크롤러 프리웨어 인 HTTrack 은 전체 웹 사이트를 PC로 다운로드하는 데 적합한 기능을 제공합니다. Windows, Linux, Sun Solaris 및 기타 Unix 시스템 용 버전이 있으며 대부분의 사용자를 대상으로합니다. 
HTTrack이 하나의 사이트 또는 하나 이상의 사이트를 공유 링크와 함께 미러링 할 수 있다는 점이 흥미 롭습니다. "설정 옵션"에서 웹 페이지를 다운로드하는 동안 동시에 열 수있는 연결 수를 결정할 수 있습니다. 
미러링 된 웹 사이트에서 사진, 파일 및 HTML 코드를 가져와 중단 된 다운로드를 재개 할 수 있습니다. 
또한 HTTTrack 내에서 프록시 지원을 통해 속도를 극대화 할 수 있습니다. 
HTTrack은 명령 줄 프로그램 또는 개인 (캡처) 또는 전문 (온라인 웹 미러) 사용을위한 셸을 통해 작동합니다. HTTrack은 고급 프로그래밍 기술을 가진 사람들이 선호하고 더 많이 사용해야합니다. 

 

 

4. Getleft

https://sourceforge.net/projects/getleftdown/

Getleft 는 무료이며 사용하기 쉬운 웹 사이트 그래버입니다. 전체 웹 사이트 또는 단일 웹 페이지를 다운로드 할 수 있습니다. Getleft를 시작한 후 URL을 입력하고 시작하기 전에 다운로드 할 파일을 선택할 수 있습니다.
진행되는 동안 로컬 브라우징을위한 모든 링크가 변경됩니다. 또한 다국어 지원을 제공합니다. 이제 Getleft는 14 개 언어를 지원합니다! 그러나 제한된 FTP 지원 만 제공하며 파일을 다운로드하지만 재귀 적으로 다운로드하지는 않습니다.
Getleft는 더 복잡한 전술 기술없이 사용자의 기본 크롤링 요구를 충족시켜야합니다.

5. Scraper


Scraper는 데이터 추출 기능이 제한적인 Chrome 확장 프로그램이지만 온라인 조사에 도움이됩니다. 또한 데이터를 Google 스프레드 시트로 내보낼 수 있습니다.
이 도구는 초보자와 전문가를위한 것입니다. OAuth를 사용하여 데이터를 클립 보드에 쉽게 복사하거나 스프레드 시트에 저장할 수 있습니다. 스크레이퍼는 크롤링 할 URL을 정의하기 위해 XPath를 자동 생성 할 수 있습니다.
포괄적 인 크롤링 서비스를 제공하지는 않지만 대부분의 사람들은 어수선한 구성을 처리 할 필요가 없습니다.

 

 

 

 

 

6. OutWit Hub

https://www.scrapestorm.com/

 

AI-Powered Web Scraping Tool & Web Data Extractor | ScrapeStorm

AI-Powered Visual Web Scraping Tool Built by ex-Google crawler team. No Programming Needed. Visual Operation. Easy to Use. Intelligent identification of data, no manual operation required Smart Mode: Based on artificial intelligence algorithms, ScrapeStorm

www.scrapestorm.com

OutWit Hub는 웹 검색을 단순화하기 위해 수십 가지 데이터 추출 기능이있는 Firefox 애드온입니다. 이 웹 크롤러 도구는 페이지를 탐색하고 추출 된 정보를 적절한 형식으로 저장할 수 있습니다.
OutWit Hub는 필요에 따라 소량 또는 대량의 데이터를 스크랩하기위한 단일 인터페이스를 제공합니다. 브라우저 자체에서 웹 페이지를 긁을 수 있습니다. 자동 에이전트를 만들어 데이터를 추출 할 수도 있습니다.
가장 간단한 웹 스크래핑 도구 중 하나이며 무료로 사용할 수 있으며 한 줄의 코드를 작성하지 않고도 웹 데이터를 편리하게 추출 할 수 있습니다.


7. ParseHub 

https://www.parsehub.com/

 

ParseHub | Free web scraping - The most powerful web scraper

Everything you need for web scraping Cloud-based Collect and store data on our servers automatically. IP Rotation Use a fleet of proxies while crawling a website. Scheduled Collection Get a new set of data daily, weekly, monthly, etc. Regular Expressions C

www.parsehub.com

ParseHub 는 AJAX 기술, JavaScript, 쿠키 등을 사용하는 웹 사이트에서 데이터 수집을 지원하는 훌륭한 웹 크롤러입니다. 머신 러닝 기술은 웹 문서를 읽고 분석하고 관련 데이터로 변환 할 수 있습니다. 
ParseHub의 데스크탑 응용 프로그램은 Windows, Mac OS X 및 Linux와 같은 시스템을 지원합니다. 브라우저 내에 내장 된 웹 앱을 사용할 수도 있습니다. 
프리웨어로서 ParseHub에서 최대 5 개의 공개 프로젝트를 설정할 수 있습니다. 유료 가입 플랜을 사용하면 웹 사이트 스크랩을위한 최소 20 개의 개인 프로젝트를 만들 수 있습니다. 

 

ParseHub 사용방법 <= 더보기

 

 

8. VisualScraper

http://visualscraper.blogspot.com/

 

Visual Scraper

 

visualscraper.blogspot.com

VisualScraper 는 간단한 포인트 앤 클릭 인터페이스를 갖춘 또 하나의 훌륭한 무료 비 코딩 웹 스크레이퍼입니다. 여러 웹 페이지에서 실시간 데이터를 가져와 추출 된 데이터를 CSV, XML, JSON 또는 SQL 파일로 내보낼 수 있습니다.
SaaS 외에도 VisualScraper는 데이터 전송 서비스 및 소프트웨어 추출기 서비스 생성과 같은 웹 스크랩 서비스를 제공합니다.
VisualScraper를 사용하면 특정 시간에 프로젝트가 실행되도록 예약하거나 매분, 일, 주, 월 또는 년마다 시퀀스를 반복 할 수 있습니다. 사용자는이를 사용하여 뉴스, 업데이트 또는 포럼을 자주 추출 할 수 있습니다.


9. Scrapinghub

https://www.scrapinghub.com/

 

Scrapinghub - World Leading Web Scraping Services, & Developer Tools

Turn websites into data with the world's leading web scraping services & tools from the creators of Scrapy. Data extraction trusted by industry leaders.

www.scrapinghub.com

Scrapinghub 는 수천 명의 개발자가 귀중한 데이터를 가져 오는 데 도움이되는 클라우드 기반 데이터 추출 도구입니다. 오픈 소스 비주얼 스크래핑 도구를 사용하면 프로그래밍 지식없이 웹 사이트를 스크랩 할 수 있습니다.
Scrapinghub는 봇 대응책 우회를 지원하여 거대하거나 봇으로 보호 된 사이트를 쉽게 크롤링하는 스마트 프록시 로테이터 인 Crawlera를 사용 합니다. 사용자는 간단한 HTTP API를 통해 프록시 관리의 어려움없이 여러 IP 및 위치에서 크롤링 할 수 있습니다.
Scrapinghub는 전체 웹 페이지를 체계화 된 콘텐츠로 변환합니다. 크롤링 빌더가 요구 사항에 맞지 않을 경우 전문가 팀에서 도움을받을 수 있습니다.

 

10. Dexi.io

https://www.dexi.io/

 

Dexi.io - Digital Commerce Intelligence, Retail, Brands & E-Commerce

Digital commerce intelligence powered by Dexi.io used by 1/3 of Fortune 500 in retail, E-commerce and Brands. Contact at +44 (0)20 745 944 30 or try for free.

www.dexi.io

브라우저 기반 웹 크롤러 인 Dexi.io를 사용하면 모든 웹 사이트에서 브라우저를 기반으로 데이터를 긁어 낼 수 있으며 추출기, 크롤러 및 파이프와 같은 긁기 작업을 생성 할 수있는 세 가지 유형의 로봇을 제공 할 수 있습니다.

 

프리웨어는 웹 스크래핑을위한 익명의 웹 프록시 서버를 제공하며 추출 된 데이터는 데이터가 보관되기 전에 2 주 동안 Dexi.io 서버에서 호스팅되거나 추출 된 데이터를 JSON 또는 CSV 파일 로 직접 내보낼 수 있습니다 .

실시간 데이터를 얻는 데 필요한 유료 서비스를 제공합니다.

 

 

 

 

11. Webhose.io

https://webhose.io/

Webhose.io를 사용 하면 전 세계의 온라인 소스를 크롤링하여 다양한 형식으로 실시간 데이터 를 얻을 수 있습니다. 이 웹 크롤러를 사용하면 다양한 소스를 포괄하는 여러 필터를 사용하여 데이터를 크롤링하고 다양한 언어로 키워드를 추가로 추출 할 수 있습니다. 또한 스크랩 된 데이터를 XML, JSON 및 RSS 형식으로 저장할 수 있습니다. 사용자는 보관소에서 기록 데이터에 액세스 할 수 있습니다. 또한 webhose.io는 크롤링 데이터 결과로 최대 80 개 언어를 지원합니다. 사용자는 Webhose.io에서 크롤링 한 구조화 된 데이터를 쉽게 색인화하고 검색 할 수 있습니다. 사용자의 기본 크롤링 요구 사항을 충족 할 수 있습니다. 사용자는 특정 웹 페이지에서 데이터를 가져오고 CSV로 데이터를 내 보내서 자체 데이터 세트를 구성 할 수 있습니다.

 

반응형

 

 

12. Import.io

http://import.io/

 

Web Data Integration - Import.io - Data Extraction, Web Data, Web Harvesting, Data Preparation, Data Integration

Web Data Integration - Import.io - Data Extraction, Web Data, Web Harvesting, Data Preparation, Data Integration

www.import.io

한 줄의 코드를 작성하지 않고도 몇 분 만에 수천 개의 웹 페이지를 쉽게 긁을 수 있으며 요구 사항에 따라 1000 개 이상의 API를 작성할 수 있습니다. 공개 API는 프로그래밍 방식으로 Import.io 를 제어 하고 자동으로 데이터에 액세스 할 수있는 강력하고 유연한 기능을 제공했습니다 . Import.io는 몇 번의 클릭만으로 웹 데이터를 자신의 앱 또는 웹 사이트에 통합함으로써 크롤링을 더 쉽게 만들었습니다. 또한 사용자의 크롤링 요구 사항을보다 효과적으로 충족시키기 위해 Windows, Mac OS X 및 Linux 용 무료 앱을 제공하여 데이터 추출기 및 크롤러를 구축하고 데이터를 다운로드하며 온라인 계정과 동기화합니다. 또한 사용자는 매주, 매일 또는 매시간 크롤링 작업을 예약 할 수 있습니다.

 

 

 

 

13. 80legs

https://80legs.com/

 

80legs – Customizable Web Scraping

 

80legs.com

80legs 는 사용자 지정 요구 사항에 따라 구성 할 수있는 강력한 웹 크롤링 도구입니다. 추출 된 데이터를 즉시 다운로드 할 수있는 옵션과 함께 대량의 데이터 가져 오기를 지원합니다. 80legs는 빠르게 작동하고 필요한 데이터를 단 몇 초 만에 가져 오는 고성능 웹 크롤링을 제공합니다.

 

 

14. Spinn3r

 

http://docs.spinn3r.com/

 

Spinn3r Documentation

Overview API calls in both JSON and curl are included in this pane. Spinn3r provides APIs for social media, weblogs, news, video, and live web content to our customers in any language and in large volumes. We provide three products main APIs for accessing

docs.spinn3r.com

 

Spinn3r을 사용하면 블로그, 뉴스, 소셜 미디어 사이트, RSS 피드 및 ATOM 피드에서 전체 데이터를 가져올 수 있습니다. Spinn3r은 색인 작업의 95 %를 관리하는 firehouse API와 함께 배포됩니다. 고급 스팸 방지 기능을 제공하여 스팸 및 부적절한 언어 사용을 제거하여 데이터 안전성을 향상시킵니다. Spinn3r은 Google과 유사하게 컨텐츠를 색인화하고 추출 된 데이터를 JSON 파일로 저장합니다. 웹 스크레이퍼는 지속적으로 웹을 검색하고 여러 소스에서 업데이트를 찾아 실시간으로 발행합니다. 관리 콘솔을 사용하면 크롤링 및 전체 텍스트 검색을 제어하여 원시 데이터에 대한 복잡한 쿼리를 수행 할 수 있습니다.

 

 

15. Content Grabber

https://contentgrabber.com/

 

Sequentum – Find the Next in Data.

Sequentum Enterprise Agent Control Center provides a holistic Enterprise solution for managing, monitoring and maintaining all web data extraction operations from user access and version control to deployment, scheduling, monitoring, server management and

www.sequentum.com

Content Grabber 는 기업을 대상으로하는 웹 크롤링 소프트웨어입니다. 독립형 웹 크롤링 에이전트를 작성할 수 있습니다. 거의 모든 웹 사이트에서 컨텐츠를 추출하여 Excel 보고서, XML, CSV 및 대부분의 데이터베이스를 포함하여 원하는 형식으로 구조화 된 데이터로 저장할 수 있습니다. 필요로하는 사람들을 위해 강력한 스크립팅, 편집 및 디버깅 인터페이스를 제공하기 때문에 고급 프로그래밍 기술을 가진 사람들에게 더 적합합니다. 사용자는 C # 또는 VB.NET을 사용하여 크롤링 프로세스 프로그래밍을 제어하는 ​​스크립트를 디버깅하거나 작성할 수 있습니다. 예를 들어 Content Grabber는 Visual Studio 2013 과 통합되어 사용자의 특정 요구에 따라 고급의 효율적인 사용자 정의 크롤러에 대한 가장 강력한 스크립트 편집, 디버깅 및 단위 테스트를 수행 할 수 있습니다.

 

 

16. Helium Scraper

https://www.heliumscraper.com/

 

Web Scraper: Best Web Scraping Tool to Extract Data from Websites

 

www.heliumscraper.com

Helium Scraper 는 시각적 웹 데이터 크롤링 소프트웨어로 요소 간 연결이 적을 때 잘 작동합니다. 비 코딩 및 비 구성입니다. 또한 사용자는 다양한 크롤링 요구에 따라 온라인 템플릿에 액세스 할 수 있습니다.
기본적으로 기본 수준 내에서 사용자의 크롤링 요구를 충족시킬 수 있습니다.

 

 

 

 

 

17. UiPath 

https://www.uipath.com/

 

Robotic Process Automation | UiPath

UiPath is a leading Robotic Process Automation vendor providing a complete software platform to help organizations efficiently automate business processes.

www.uipath.com

UiPath 는 무료 웹 스크래핑을위한 로봇 프로세스 자동화 소프트웨어입니다. 대부분의 타사 앱에 대한 웹 및 데스크톱 데이터 크롤링을 자동화합니다.
로봇 프로세스 자동화 소프트웨어를 Windows에서 실행하면 설치할 수 있습니다. UiPath는 여러 웹 페이지에서 테이블 형식 및 패턴 기반 데이터를 추출 할 수 있습니다.
UiPath는 추가 크롤링을위한 기본 제공 도구를 제공했습니다. 이 방법은 복잡한 UI를 처리 할 때 매우 효과적입니다. 화면 스크래핑 도구는 개별 텍스트 요소, 텍스트 그룹 및 텍스트 블록 (예 : 테이블 형식의 데이터 추출)을 모두 처리 할 수 ​​있습니다.
또한 지능형 웹 에이전트를 만드는 데 프로그래밍이 필요하지 않지만 내부의 .NET 해커는 데이터를 완전히 제어 할 수 있습니다.

 

 

18. Scrape.it

https://scrape.it/

 

Web Scraping, Crawling, Web Data Extraction Point-Click Tool

No Infrastructure to Build. No Servers or databases to maintain. Everything from your web crawls, data is stored online. Easily access it from any Chrome browser with the extension.

scrape.it

Scrape.it 는 Node.js 웹 스크랩 핑 소프트웨어입니다. 클라우드 기반 웹 데이터 추출 도구입니다. 전 세계 수백만 개발자와 코드를 발견, 재사용, 업데이트 및 공유 할 수있는 공개 및 개인 패키지를 모두 제공하므로 고급 프로그래밍 기술을 갖춘 사용자를 위해 설계되었습니다. 강력한 통합 기능을 통해 필요에 따라 맞춤형 크롤러를 구축 할 수 있습니다.

 

 

19. WebHarvy

https://www.webharvy.com/

 

Web Scraping Software - Easy Data Extraction | WebHarvy

support@webharvy.com | sales@webharvy.com | YouTube Channel | KB Articles Easy Web Scraping Web Scraping is easy with WebHarvy's point and click interface. There is absolutely no need to write any code or scripts to scrape data. You will be using WebHarvy'

www.webharvy.com

WebHarvy 는 포인트 앤 클릭 방식의 웹 스크래핑 소프트웨어입니다. 프로그래머가 아닌 사용자를 위해 설계되었습니다. WebHarvy는 웹 사이트에서 텍스트, 이미지, URL 및 이메일을 자동으로 스크랩하고 스크랩 된 컨텐츠를 다양한 형식으로 저장할 수 있습니다. 또한 익명으로 크롤링하고 웹 스크랩 소프트웨어가 웹 서버에 의해 차단되는 것을 방지하는 내장 스케줄러 및 프록시 지원을 제공합니다. 프록시 서버 또는 VPN을 통해 대상 웹 사이트에 액세스 할 수 있습니다. 사용자는 웹 페이지에서 추출한 데이터를 다양한 형식으로 저장할 수 있습니다. WebHarvy 웹 스크레이퍼의 현재 버전을 사용하면 스크랩 된 데이터를 XML, CSV, JSON 또는 TSV 파일로 내보낼 수 있습니다. 사용자는 스크랩 된 데이터를 SQL 데이터베이스로 내보낼 수도 있습니다.

 

 

20. Connotate

https://commoncrawl.org/

 

Common Crawl

Access to data is a good thing, right? Please donate today, so we can continue to provide you and others like you with this priceless resource. DONATE NOW Don't forget, Common Crawl is a registered 501(c)(3) non-profit so your donation is tax deductible!

commoncrawl.org

 

Connotate 는 엔터프라이즈 규모의 솔루션 이 필요한 엔터프라이즈 규모의 웹 컨텐츠 추출을 위해 설계된 자동 웹 크롤러입니다 . 비즈니스 사용자는 프로그래밍없이 몇 분만에 추출 에이전트를 쉽게 만들 수 있습니다. 사용자는 포인트 앤 클릭만으로 추출 에이전트를 생성 할 수 있습니다. Ajax와 같은 복잡한 JavaScript 기반 동적 사이트 기술을 포함하여 프로그래밍없이 사이트의 95 % 이상을 자동으로 추출 할 수 있습니다. Connotate는 대부분의 사이트에서 데이터를 크롤링하기위한 모든 언어를 지원합니다. 또한 Connotate는 데이터베이스 추출을 위해 SQL 데이터베이스 및 MongoDB의 컨텐츠를 포함하여 웹 페이지 및 데이터베이스 컨텐츠를 통합하는 기능도 제공합니다.

 

 

이 글이 조금이나마 도움이 되셨다면 , 공감! 댓글! 부탁드립니다. ^^
오늘도 행복한 하루 되세요~♡!!

 

 

 

 

728x90
반응형
그리드형

댓글