웹 크롤링은 오늘날 많은 분야에서 광범위하게 적용되고 있습니다만,
웹 크롤러 도구가 공개되기 전에는 프로그래밍 기술이 없는 사람들에게는 그저 마법의 단어였던 시절도 있었습니다.
현존하는 최고의 웹 크롤러 TOP 20을 소개할까 합니다.
1. Octoparse
귀여운 아이콘으로 혼동하지 마십시오. Octoparse 는 웹 사이트에서 필요한 거의 모든 종류의 데이터를 추출 할 수있는 강력한 웹 사이트 크롤러 입니다.
Octoparse를 사용하여 광범위한 기능을 갖춘 웹 사이트를 리핑 할 수 있습니다. 프로그래머가 아닌 사용자가 빠르게 선택할 수 있도록 마법사 모드와 고급 모드의 두 가지 작동 모드가 있습니다.
사용자 친화적 인 포인트 앤 클릭 인터페이스는 전체 추출 과정을 안내합니다. 결과적으로 웹 사이트 컨텐츠를 쉽게 가져 와서 짧은 시간 내에 Excel, TXT, HTML 또는 데이터베이스 와 같은 구조화 된 형식으로 저장할 수 있습니다 .
또한 예약 된 클라우드 추출 을 제공 하여 동적 데이터를 실시간 으로 추출 하고 웹 사이트 업데이트에 대한 추적 기록을 유지할 수 있습니다.
내장 된 Regex 및 XPath 구성을 사용하여 요소를 정확하게 찾아서 복잡한 구조의 복잡한 웹 사이트를 추출 할 수도 있습니다. 더 이상 IP 차단에 대해 걱정할 필요가 없습니다.
Octoparse는 IP 프록시 서버를 제공하여 IP를 자동화하여 공격적인 웹 사이트에 의해 감지되지 않습니다. 결론적으로 Octoparse는 코딩 기술 없이도 기본 또는 고급 사용자 크롤링 요구를 대부분 충족시킬 수 있어야합니다.
2. Cyotek WebCopy
WebCopy 는 이름과 같은 설명입니다. 오프라인 참조를 위해 부분 또는 전체 웹 사이트를 하드 디스크에 로컬로 복사 할 수있는 무료 웹 사이트 크롤러입니다.
봇에게 크롤링 방법을 알려주도록 설정을 변경할 수 있습니다. 그 외에도 도메인 별칭, 사용자 에이전트 문자열, 기본 문서 등을 구성 할 수도 있습니다.
그러나 WebCopy에는 가상 DOM 또는 모든 형태의 JavaScript 구문 분석이 포함되지 않습니다. 웹 사이트에서 JavaScript를 많이 사용하여 작동하는 경우 WebCopy가 실제 사본을 만들 수 없을 것입니다. JavaScript를 많이 사용하여 동적 웹 사이트 레이아웃을 올바르게 처리하지 못할 가능성이 있습니다.
3. HTTrack
웹 사이트 크롤러 프리웨어 인 HTTrack 은 전체 웹 사이트를 PC로 다운로드하는 데 적합한 기능을 제공합니다. Windows, Linux, Sun Solaris 및 기타 Unix 시스템 용 버전이 있으며 대부분의 사용자를 대상으로합니다.
HTTrack이 하나의 사이트 또는 하나 이상의 사이트를 공유 링크와 함께 미러링 할 수 있다는 점이 흥미 롭습니다. "설정 옵션"에서 웹 페이지를 다운로드하는 동안 동시에 열 수있는 연결 수를 결정할 수 있습니다.
미러링 된 웹 사이트에서 사진, 파일 및 HTML 코드를 가져와 중단 된 다운로드를 재개 할 수 있습니다.
또한 HTTTrack 내에서 프록시 지원을 통해 속도를 극대화 할 수 있습니다.
HTTrack은 명령 줄 프로그램 또는 개인 (캡처) 또는 전문 (온라인 웹 미러) 사용을위한 셸을 통해 작동합니다. HTTrack은 고급 프로그래밍 기술을 가진 사람들이 선호하고 더 많이 사용해야합니다.
4. Getleft
https://sourceforge.net/projects/getleftdown/
Getleft 는 무료이며 사용하기 쉬운 웹 사이트 그래버입니다. 전체 웹 사이트 또는 단일 웹 페이지를 다운로드 할 수 있습니다. Getleft를 시작한 후 URL을 입력하고 시작하기 전에 다운로드 할 파일을 선택할 수 있습니다.
진행되는 동안 로컬 브라우징을위한 모든 링크가 변경됩니다. 또한 다국어 지원을 제공합니다. 이제 Getleft는 14 개 언어를 지원합니다! 그러나 제한된 FTP 지원 만 제공하며 파일을 다운로드하지만 재귀 적으로 다운로드하지는 않습니다.
Getleft는 더 복잡한 전술 기술없이 사용자의 기본 크롤링 요구를 충족시켜야합니다.
5. Scraper
Scraper는 데이터 추출 기능이 제한적인 Chrome 확장 프로그램이지만 온라인 조사에 도움이됩니다. 또한 데이터를 Google 스프레드 시트로 내보낼 수 있습니다.
이 도구는 초보자와 전문가를위한 것입니다. OAuth를 사용하여 데이터를 클립 보드에 쉽게 복사하거나 스프레드 시트에 저장할 수 있습니다. 스크레이퍼는 크롤링 할 URL을 정의하기 위해 XPath를 자동 생성 할 수 있습니다.
포괄적 인 크롤링 서비스를 제공하지는 않지만 대부분의 사람들은 어수선한 구성을 처리 할 필요가 없습니다.
6. OutWit Hub
OutWit Hub는 웹 검색을 단순화하기 위해 수십 가지 데이터 추출 기능이있는 Firefox 애드온입니다. 이 웹 크롤러 도구는 페이지를 탐색하고 추출 된 정보를 적절한 형식으로 저장할 수 있습니다.
OutWit Hub는 필요에 따라 소량 또는 대량의 데이터를 스크랩하기위한 단일 인터페이스를 제공합니다. 브라우저 자체에서 웹 페이지를 긁을 수 있습니다. 자동 에이전트를 만들어 데이터를 추출 할 수도 있습니다.
가장 간단한 웹 스크래핑 도구 중 하나이며 무료로 사용할 수 있으며 한 줄의 코드를 작성하지 않고도 웹 데이터를 편리하게 추출 할 수 있습니다.
7. ParseHub
ParseHub 는 AJAX 기술, JavaScript, 쿠키 등을 사용하는 웹 사이트에서 데이터 수집을 지원하는 훌륭한 웹 크롤러입니다. 머신 러닝 기술은 웹 문서를 읽고 분석하고 관련 데이터로 변환 할 수 있습니다.
ParseHub의 데스크탑 응용 프로그램은 Windows, Mac OS X 및 Linux와 같은 시스템을 지원합니다. 브라우저 내에 내장 된 웹 앱을 사용할 수도 있습니다.
프리웨어로서 ParseHub에서 최대 5 개의 공개 프로젝트를 설정할 수 있습니다. 유료 가입 플랜을 사용하면 웹 사이트 스크랩을위한 최소 20 개의 개인 프로젝트를 만들 수 있습니다.
8. VisualScraper
http://visualscraper.blogspot.com/
VisualScraper 는 간단한 포인트 앤 클릭 인터페이스를 갖춘 또 하나의 훌륭한 무료 비 코딩 웹 스크레이퍼입니다. 여러 웹 페이지에서 실시간 데이터를 가져와 추출 된 데이터를 CSV, XML, JSON 또는 SQL 파일로 내보낼 수 있습니다.
SaaS 외에도 VisualScraper는 데이터 전송 서비스 및 소프트웨어 추출기 서비스 생성과 같은 웹 스크랩 서비스를 제공합니다.
VisualScraper를 사용하면 특정 시간에 프로젝트가 실행되도록 예약하거나 매분, 일, 주, 월 또는 년마다 시퀀스를 반복 할 수 있습니다. 사용자는이를 사용하여 뉴스, 업데이트 또는 포럼을 자주 추출 할 수 있습니다.
9. Scrapinghub
Scrapinghub 는 수천 명의 개발자가 귀중한 데이터를 가져 오는 데 도움이되는 클라우드 기반 데이터 추출 도구입니다. 오픈 소스 비주얼 스크래핑 도구를 사용하면 프로그래밍 지식없이 웹 사이트를 스크랩 할 수 있습니다.
Scrapinghub는 봇 대응책 우회를 지원하여 거대하거나 봇으로 보호 된 사이트를 쉽게 크롤링하는 스마트 프록시 로테이터 인 Crawlera를 사용 합니다. 사용자는 간단한 HTTP API를 통해 프록시 관리의 어려움없이 여러 IP 및 위치에서 크롤링 할 수 있습니다.
Scrapinghub는 전체 웹 페이지를 체계화 된 콘텐츠로 변환합니다. 크롤링 빌더가 요구 사항에 맞지 않을 경우 전문가 팀에서 도움을받을 수 있습니다.
10. Dexi.io
브라우저 기반 웹 크롤러 인 Dexi.io를 사용하면 모든 웹 사이트에서 브라우저를 기반으로 데이터를 긁어 낼 수 있으며 추출기, 크롤러 및 파이프와 같은 긁기 작업을 생성 할 수있는 세 가지 유형의 로봇을 제공 할 수 있습니다.
프리웨어는 웹 스크래핑을위한 익명의 웹 프록시 서버를 제공하며 추출 된 데이터는 데이터가 보관되기 전에 2 주 동안 Dexi.io 서버에서 호스팅되거나 추출 된 데이터를 JSON 또는 CSV 파일 로 직접 내보낼 수 있습니다 .
실시간 데이터를 얻는 데 필요한 유료 서비스를 제공합니다.
11. Webhose.io
Webhose.io를 사용 하면 전 세계의 온라인 소스를 크롤링하여 다양한 형식으로 실시간 데이터 를 얻을 수 있습니다. 이 웹 크롤러를 사용하면 다양한 소스를 포괄하는 여러 필터를 사용하여 데이터를 크롤링하고 다양한 언어로 키워드를 추가로 추출 할 수 있습니다. 또한 스크랩 된 데이터를 XML, JSON 및 RSS 형식으로 저장할 수 있습니다. 사용자는 보관소에서 기록 데이터에 액세스 할 수 있습니다. 또한 webhose.io는 크롤링 데이터 결과로 최대 80 개 언어를 지원합니다. 사용자는 Webhose.io에서 크롤링 한 구조화 된 데이터를 쉽게 색인화하고 검색 할 수 있습니다. 사용자의 기본 크롤링 요구 사항을 충족 할 수 있습니다. 사용자는 특정 웹 페이지에서 데이터를 가져오고 CSV로 데이터를 내 보내서 자체 데이터 세트를 구성 할 수 있습니다.
12. Import.io
한 줄의 코드를 작성하지 않고도 몇 분 만에 수천 개의 웹 페이지를 쉽게 긁을 수 있으며 요구 사항에 따라 1000 개 이상의 API를 작성할 수 있습니다. 공개 API는 프로그래밍 방식으로 Import.io 를 제어 하고 자동으로 데이터에 액세스 할 수있는 강력하고 유연한 기능을 제공했습니다 . Import.io는 몇 번의 클릭만으로 웹 데이터를 자신의 앱 또는 웹 사이트에 통합함으로써 크롤링을 더 쉽게 만들었습니다. 또한 사용자의 크롤링 요구 사항을보다 효과적으로 충족시키기 위해 Windows, Mac OS X 및 Linux 용 무료 앱을 제공하여 데이터 추출기 및 크롤러를 구축하고 데이터를 다운로드하며 온라인 계정과 동기화합니다. 또한 사용자는 매주, 매일 또는 매시간 크롤링 작업을 예약 할 수 있습니다.
13. 80legs
80legs 는 사용자 지정 요구 사항에 따라 구성 할 수있는 강력한 웹 크롤링 도구입니다. 추출 된 데이터를 즉시 다운로드 할 수있는 옵션과 함께 대량의 데이터 가져 오기를 지원합니다. 80legs는 빠르게 작동하고 필요한 데이터를 단 몇 초 만에 가져 오는 고성능 웹 크롤링을 제공합니다.
14. Spinn3r
Spinn3r을 사용하면 블로그, 뉴스, 소셜 미디어 사이트, RSS 피드 및 ATOM 피드에서 전체 데이터를 가져올 수 있습니다. Spinn3r은 색인 작업의 95 %를 관리하는 firehouse API와 함께 배포됩니다. 고급 스팸 방지 기능을 제공하여 스팸 및 부적절한 언어 사용을 제거하여 데이터 안전성을 향상시킵니다. Spinn3r은 Google과 유사하게 컨텐츠를 색인화하고 추출 된 데이터를 JSON 파일로 저장합니다. 웹 스크레이퍼는 지속적으로 웹을 검색하고 여러 소스에서 업데이트를 찾아 실시간으로 발행합니다. 관리 콘솔을 사용하면 크롤링 및 전체 텍스트 검색을 제어하여 원시 데이터에 대한 복잡한 쿼리를 수행 할 수 있습니다.
15. Content Grabber
Content Grabber 는 기업을 대상으로하는 웹 크롤링 소프트웨어입니다. 독립형 웹 크롤링 에이전트를 작성할 수 있습니다. 거의 모든 웹 사이트에서 컨텐츠를 추출하여 Excel 보고서, XML, CSV 및 대부분의 데이터베이스를 포함하여 원하는 형식으로 구조화 된 데이터로 저장할 수 있습니다. 필요로하는 사람들을 위해 강력한 스크립팅, 편집 및 디버깅 인터페이스를 제공하기 때문에 고급 프로그래밍 기술을 가진 사람들에게 더 적합합니다. 사용자는 C # 또는 VB.NET을 사용하여 크롤링 프로세스 프로그래밍을 제어하는 스크립트를 디버깅하거나 작성할 수 있습니다. 예를 들어 Content Grabber는 Visual Studio 2013 과 통합되어 사용자의 특정 요구에 따라 고급의 효율적인 사용자 정의 크롤러에 대한 가장 강력한 스크립트 편집, 디버깅 및 단위 테스트를 수행 할 수 있습니다.
16. Helium Scraper
https://www.heliumscraper.com/
Helium Scraper 는 시각적 웹 데이터 크롤링 소프트웨어로 요소 간 연결이 적을 때 잘 작동합니다. 비 코딩 및 비 구성입니다. 또한 사용자는 다양한 크롤링 요구에 따라 온라인 템플릿에 액세스 할 수 있습니다.
기본적으로 기본 수준 내에서 사용자의 크롤링 요구를 충족시킬 수 있습니다.
17. UiPath
UiPath 는 무료 웹 스크래핑을위한 로봇 프로세스 자동화 소프트웨어입니다. 대부분의 타사 앱에 대한 웹 및 데스크톱 데이터 크롤링을 자동화합니다.
로봇 프로세스 자동화 소프트웨어를 Windows에서 실행하면 설치할 수 있습니다. UiPath는 여러 웹 페이지에서 테이블 형식 및 패턴 기반 데이터를 추출 할 수 있습니다.
UiPath는 추가 크롤링을위한 기본 제공 도구를 제공했습니다. 이 방법은 복잡한 UI를 처리 할 때 매우 효과적입니다. 화면 스크래핑 도구는 개별 텍스트 요소, 텍스트 그룹 및 텍스트 블록 (예 : 테이블 형식의 데이터 추출)을 모두 처리 할 수 있습니다.
또한 지능형 웹 에이전트를 만드는 데 프로그래밍이 필요하지 않지만 내부의 .NET 해커는 데이터를 완전히 제어 할 수 있습니다.
18. Scrape.it
Scrape.it 는 Node.js 웹 스크랩 핑 소프트웨어입니다. 클라우드 기반 웹 데이터 추출 도구입니다. 전 세계 수백만 개발자와 코드를 발견, 재사용, 업데이트 및 공유 할 수있는 공개 및 개인 패키지를 모두 제공하므로 고급 프로그래밍 기술을 갖춘 사용자를 위해 설계되었습니다. 강력한 통합 기능을 통해 필요에 따라 맞춤형 크롤러를 구축 할 수 있습니다.
19. WebHarvy
WebHarvy 는 포인트 앤 클릭 방식의 웹 스크래핑 소프트웨어입니다. 프로그래머가 아닌 사용자를 위해 설계되었습니다. WebHarvy는 웹 사이트에서 텍스트, 이미지, URL 및 이메일을 자동으로 스크랩하고 스크랩 된 컨텐츠를 다양한 형식으로 저장할 수 있습니다. 또한 익명으로 크롤링하고 웹 스크랩 소프트웨어가 웹 서버에 의해 차단되는 것을 방지하는 내장 스케줄러 및 프록시 지원을 제공합니다. 프록시 서버 또는 VPN을 통해 대상 웹 사이트에 액세스 할 수 있습니다. 사용자는 웹 페이지에서 추출한 데이터를 다양한 형식으로 저장할 수 있습니다. WebHarvy 웹 스크레이퍼의 현재 버전을 사용하면 스크랩 된 데이터를 XML, CSV, JSON 또는 TSV 파일로 내보낼 수 있습니다. 사용자는 스크랩 된 데이터를 SQL 데이터베이스로 내보낼 수도 있습니다.
20. Connotate
Connotate 는 엔터프라이즈 규모의 솔루션 이 필요한 엔터프라이즈 규모의 웹 컨텐츠 추출을 위해 설계된 자동 웹 크롤러입니다 . 비즈니스 사용자는 프로그래밍없이 몇 분만에 추출 에이전트를 쉽게 만들 수 있습니다. 사용자는 포인트 앤 클릭만으로 추출 에이전트를 생성 할 수 있습니다. Ajax와 같은 복잡한 JavaScript 기반 동적 사이트 기술을 포함하여 프로그래밍없이 사이트의 95 % 이상을 자동으로 추출 할 수 있습니다. Connotate는 대부분의 사이트에서 데이터를 크롤링하기위한 모든 언어를 지원합니다. 또한 Connotate는 데이터베이스 추출을 위해 SQL 데이터베이스 및 MongoDB의 컨텐츠를 포함하여 웹 페이지 및 데이터베이스 컨텐츠를 통합하는 기능도 제공합니다.
이 글이 조금이나마 도움이 되셨다면 , 공감! 댓글! 부탁드립니다. ^^ 오늘도 행복한 하루 되세요~♡!! |
'IT박사' 카테고리의 다른 글
[빅데이터] 시각화 툴 BEST TOP 5 (0) | 2020.08.05 |
---|---|
[소프트웨어] 화이트 보드 애니메이션 소프트웨어 TOP 12 (2) | 2020.07.29 |
[IT박사] 놀라운 생산성을 제공하는 개발자를 위한 도구 - 스타트업,디자이너,개발자, 협업툴 (feat.Cloudcraft, Figma 등) (0) | 2020.07.24 |
[유튜브 디자인] 채널아트, 아이콘 제작 사이트/어플 완벽정리! (0) | 2020.02.09 |
[서버/호스팅] 무료 호스팅 제공 사이트 (0) | 2020.02.07 |
댓글