아래에 나열된 것은 몇 가지 최고의 오픈 소스 도구와 무료 평가판이있는 유료 상용 도구입니다.
각 도구를 자세히 살펴 보겠습니다 !!
# 1) Xplenty
Xplenty 는 클라우드에서 분석을 위해 데이터를 통합, 처리 및 준비하는 플랫폼입니다. 모든 데이터 소스를한데 모을 것입니다. 직관적 인 그래픽 인터페이스는 ETL, ELT 또는 복제 솔루션을 구현하는 데 도움이됩니다.
Xplenty는 로우 코드 및 코드없는 기능으로 데이터 파이프 라인을 구축하기위한 완벽한 툴킷입니다. 마케팅, 영업, 지원 및 개발자를위한 솔루션이 있습니다.
Xplenty는 하드웨어, 소프트웨어 또는 관련 인력에 투자하지 않고도 데이터를 최대한 활용할 수 있도록 도와줍니다. Xplenty는 이메일, 채팅, 전화 및 온라인 회의를 통해 지원을 제공합니다.
장점 :
- Xplenty는 탄력적이고 확장 가능한 클라우드 플랫폼입니다.
- 다양한 데이터 저장소와 다양한 즉시 사용 가능한 데이터 변환 구성 요소에 즉시 연결할 수 있습니다.
- Xplenty의 풍부한 표현 언어를 사용하여 복잡한 데이터 준비 기능을 구현할 수 있습니다.
- 고급 사용자 지정 및 유연성을위한 API 구성 요소를 제공합니다.
단점 :
- 연간 청구 옵션 만 사용할 수 있습니다. 월간 구독을 허용하지 않습니다.
가격 : 가격 세부 정보에 대한 견적을받을 수 있습니다. 구독 기반 가격 모델이 있습니다. 7 일 동안 무료로 플랫폼을 사용해 볼 수 있습니다.
# 2) Hadoop
Apache Hadoop은 클러스터 된 파일 시스템 및 빅 데이터 처리에 사용되는 소프트웨어 프레임 워크입니다. MapReduce 프로그래밍 모델을 통해 빅 데이터의 데이터 세트를 처리합니다.
Hadoop은 Java로 작성된 오픈 소스 프레임 워크이며 크로스 플랫폼 지원을 제공합니다.
의심 할 여지없이 이것은 최고의 빅 데이터 도구입니다. 실제로 Fortune 50 대 기업의 절반 이상이 Hadoop을 사용합니다. 의 일부 큰 이름 등 호튼 웍스, IBM, 인텔, 마이크로 소프트, 페이스 북, 아마존 웹 서비스를 포함
장점 :
- Hadoop의 핵심 강점은 동일한 파일 시스템에서 비디오, 이미지, JSON, XML 및 일반 텍스트와 같은 모든 유형의 데이터를 저장할 수있는 HDFS (Hadoop 분산 파일 시스템)입니다.
- R & D 목적에 매우 유용합니다.
- 데이터에 대한 빠른 액세스를 제공합니다.
- 뛰어난 확장 성
- 컴퓨터 클러스터에있는 고 가용성 서비스
단점 :
- 3 배 데이터 중복으로 인해 디스크 공간 문제가 발생할 수 있습니다.
- I / O 작업은 더 나은 성능을 위해 최적화되었을 수 있습니다.
가격 : 이 소프트웨어는 Apache 라이선스에 따라 무료로 사용할 수 있습니다.
Apache Hadoop 웹 사이트로 이동 하려면 여기 를 클릭 하십시오 .
# 3) CDH (하 둡용 Cloudera 배포)
CDH는 해당 기술의 엔터프라이즈 급 배포를 목표로합니다. 완전히 오픈 소스이며 Apache Hadoop, Apache Spark, Apache Impala 등을 포함하는 무료 플랫폼 배포를 제공합니다.
무제한 데이터를 수집, 처리, 관리, 관리, 발견, 모델링 및 배포 할 수 있습니다.
장점 :
- 포괄적 인 배포
- Cloudera Manager는 Hadoop 클러스터를 매우 잘 관리합니다.
- 간편한 구현.
- 덜 복잡한 관리.
- 높은 보안 및 거버넌스
단점 :
- CM 서비스의 차트와 같은 복잡한 UI 기능은 거의 없습니다.
- 여러 가지 권장 설치 방법이 혼란 스러울 것 같습니다.
그러나 노드 당 라이선스 가격은 상당히 비쌉니다.
가격 : CDH는 Cloudera의 무료 소프트웨어 버전입니다. 그러나 Hadoop 클러스터의 비용을 알고 싶다면 노드 당 비용은 테라 바이트 당 약 $ 1000 ~ $ 2000입니다.
여기 를 클릭 하여 CDH 웹 사이트로 이동 하십시오 .
# 4) Cassandra
Apache Cassandra는 무료이며 수많은 상용 서버에 분산 된 방대한 양의 데이터를 관리하도록 구성된 오픈 소스 분산 NoSQL DBMS로 고 가용성을 제공합니다. CQL (Cassandra Structure Language)을 사용하여 데이터베이스와 상호 작용합니다.
Cassandra를 사용하는 유명 기업으로는 Accenture, American Express, Facebook, General Electric, Honeywell, Yahoo 등이 있습니다.
장점 :
- 단일 실패 지점이 없습니다.
- 대용량 데이터를 매우 빠르게 처리합니다.
- 로그 구조 스토리지
- 자동화 된 복제
- 선형 확장 성
- 단순 링 아키텍처
단점 :
- 문제 해결 및 유지 관리에 추가 노력이 필요합니다.
- 클러스터링이 개선 될 수 있습니다.
- 행 수준 잠금 기능이 없습니다.
가격 : 이 도구는 무료입니다.
Cassandra 웹 사이트로 이동 하려면 여기 를 클릭 하세요 .
# 5) KNIME
KNIME는 기업보고, 통합, 연구, CRM, 데이터 마이닝, 데이터 분석, 텍스트 마이닝 및 비즈니스 인텔리전스에 사용되는 오픈 소스 도구 인 Konstanz Information Miner의 약자입니다 . Linux, OS X 및 Windows 운영 체제를 지원합니다.
SAS의 좋은 대안으로 간주 될 수 있습니다. Knime을 사용하는 최고의 회사로는 Comcast, Johnson & Johnson, Canadian Tire 등이 있습니다.
장점 :
- 간단한 ETL 작업
- 다른 기술 및 언어와 매우 잘 통합됩니다.
- 풍부한 알고리즘 세트.
- 유용하고 체계적인 워크 플로우.
- 많은 수작업을 자동화합니다.
- 안정성 문제가 없습니다.
- 설정이 쉽습니다.
단점 :
- 데이터 처리 능력을 향상시킬 수 있습니다.
- 거의 전체 RAM을 차지합니다.
- 그래프 데이터베이스와의 통합을 허용했을 수 있습니다.
가격 : Knime 플랫폼은 무료입니다. 그러나 Knime 분석 플랫폼의 기능을 확장하는 다른 상용 제품을 제공합니다.
KNIME 웹 사이트로 이동 하려면 여기 를 클릭 하십시오 .
# 6) Datawrapper
Datawrapper는 사용자가 간단하고 정확하며 포함 가능한 차트를 매우 빠르게 생성 할 수 있도록 지원하는 데이터 시각화 용 오픈 소스 플랫폼입니다.
주요 고객은 전 세계에 퍼져있는 뉴스 룸입니다. 일부 이름에는 The Times, Fortune, Mother Jones, Bloomberg, Twitter 등이 포함됩니다.
장점 :
- 기기 친화적입니다. 모바일, 태블릿 또는 데스크톱 등 모든 유형의 장치에서 매우 잘 작동합니다.
- 완전히 반응
- 빠른
- 인터렉티브
- 모든 차트를 한 곳으로 가져옵니다.
- 훌륭한 사용자 정의 및 내보내기 옵션.
- 제로 코딩이 필요합니다.
단점 : 제한된 색상 팔레트
가격 : 아래에 언급 된대로 무료 서비스와 맞춤형 유료 옵션을 제공합니다.
- 단일 사용자, 가끔 사용 : 10K
- 단일 사용자, 일일 사용 : 29 € / 월
- 전문 팀 : 129 € / 월
- 맞춤형 버전 : 279 € / 월
- 엔터프라이즈 버전 : 879 € +
Datawrapper 웹 사이트로 이동 하려면 여기 를 클릭 하십시오 .
# 7) MongoDB
MongoDB는 C, C ++ 및 JavaScript로 작성된 NoSQL 문서 지향 데이터베이스입니다. 무료로 사용할 수 있으며 Windows Vista (이상 버전), OS X (10.7 이상 버전), Linux, Solaris 및 FreeBSD를 포함한 여러 운영 체제를 지원하는 오픈 소스 도구입니다.
주요 기능으로는 집계, 임시 쿼리, BSON 형식 사용, 샤딩, 인덱싱, 복제, 서버 측 자바 스크립트 실행, 스키마리스, 제한 수집, MongoDB 관리 서비스 (MMS),로드 밸런싱 및 파일 스토리지가 있습니다.
MongoDB를 사용하는 주요 고객으로는 Facebook, eBay, MetLife, Google 등이 있습니다.
장점 :
- 배우기 쉽습니다.
- 여러 기술 및 플랫폼에 대한 지원을 제공합니다.
- 설치 및 유지 관리에 문제가 없습니다.
- 안정적이고 저렴한 비용.
단점 :
- 제한된 분석.
- 특정 사용 사례의 경우 느립니다.
가격 : MongoDB의 SMB 및 엔터프라이즈 버전은 유료이며 요청시 가격이 제공됩니다.
MongoDB 웹 사이트로 이동 하려면 여기 를 클릭 하십시오 .
# 8) Lumify
Lumify는 빅 데이터 융합 / 통합, 분석 및 시각화를위한 무료 오픈 소스 도구입니다.
주요 기능에는 전체 텍스트 검색, 2D 및 3D 그래프 시각화, 자동 레이아웃, 그래프 엔티티 간의 링크 분석, 매핑 시스템과의 통합, 지리 공간 분석, 멀티미디어 분석, 일련의 프로젝트 또는 작업 공간을 통한 실시간 협업이 포함됩니다.
장점 :
- 확장 가능
- 안전한
- 전담 풀 타임 개발 팀의 지원을받습니다.
- 클라우드 기반 환경을 지원합니다. Amazon의 AWS와 잘 작동합니다.
가격 : 이 도구는 무료입니다.
Lumify 웹 사이트로 이동 하려면 여기 를 클릭 하십시오 .
# 9) HPCC
HPCC는 약자 H igh- P erformance C omputing C 광택. 이것은 확장 성이 뛰어난 슈퍼 컴퓨팅 플랫폼을 통한 완전한 빅 데이터 솔루션입니다. HPCC는 DAS ( Data A nalytics S upercomputer)라고도합니다. 이 도구는 LexisNexis Risk Solutions에서 개발했습니다.
이 도구는 C ++ 및 ECL (Enterprise Control Language)로 알려진 데이터 중심 프로그래밍 언어로 작성되었습니다. 데이터 병렬 처리, 파이프 라인 병렬 처리 및 시스템 병렬 처리를 지원하는 Thor 아키텍처를 기반으로합니다. 오픈 소스 도구이며 Hadoop 및 기타 빅 데이터 플랫폼을 대체 할 수 있습니다.
장점 :
- 이 아키텍처는 고성능을 제공하는 상용 컴퓨팅 클러스터를 기반으로합니다.
- 병렬 데이터 처리.
- 빠르고 강력하며 확장 성이 뛰어납니다.
- 고성능 온라인 쿼리 애플리케이션을 지원합니다.
- 비용 효율적이고 포괄적입니다.
가격 : 이 도구는 무료입니다.
HPCC 웹 사이트로 이동 하려면 여기 를 클릭 하십시오 .
# 10) Storm
Apache Storm은 크로스 플랫폼, 분산 스트림 처리 및 내결함성 실시간 계산 프레임 워크입니다. 무료이며 오픈 소스입니다. 폭풍의 개발자로는 Backtype과 Twitter가 있습니다. Clojure와 Java로 작성되었습니다.
아키텍처는 사용자 정의 된 스파우트 및 볼트를 기반으로 정보 소스 및 조작을 설명하여 무제한 데이터 스트림의 일괄 분산 처리를 허용합니다.
그 중에서도 Groupon, Yahoo, Alibaba 및 The Weather Channel은 Apache Storm을 사용하는 유명한 조직입니다.
장점 :
- 대규모 안정성.
- 매우 빠르고 내결함성이 있습니다.
- Guarantees the processing of data.
- It has multiple use cases – real-time analytics, log processing, ETL (Extract-Transform-Load), continuous computation, distributed RPC, machine learning.
Cons:
- Difficult to learn and use.
- Difficulties with debugging.
- Use of Native Scheduler and Nimbus become bottlenecks.
Pricing: This tool is free.
Click here to Navigate to the Apache Storm website.
#11) Apache SAMOA
SAMOA stands for Scalable Advanced Massive Online Analysis. It is an open-source platform for big data stream mining and machine learning.
It allows you to create distributed streaming machine learning (ML) algorithms and run them on multiple DSPEs (distributed stream processing engines). Apache SAMOA’s closest alternative is BigML tool.
Pros:
- Simple and fun to use.
- Fast and scalable.
- True real-time streaming.
- WORA (Write Once Run Anywhere) 아키텍처.
가격 : 이 도구는 무료입니다.
SAMOA 웹 사이트로 이동 하려면 여기 를 클릭 하십시오 .
# 12) Talend
Talend 빅 데이터 통합 제품은 다음과 같습니다.
- 빅 데이터 용 오픈 스튜디오 : 무료 및 오픈 소스 라이선스로 제공됩니다. 구성 요소와 커넥터는 Hadoop 및 NoSQL입니다. 커뮤니티 지원 만 제공합니다.
- 빅 데이터 플랫폼 : 사용자 기반 구독 라이선스와 함께 제공됩니다. 구성 요소와 커넥터는 MapReduce 및 Spark입니다. 웹, 이메일 및 전화 지원을 제공합니다.
- 실시간 빅 데이터 플랫폼 : 사용자 기반 구독 라이선스가 적용됩니다. 구성 요소 및 커넥터에는 Spark 스트리밍, 기계 학습 및 IoT가 포함됩니다. 웹, 이메일 및 전화 지원을 제공합니다.
장점 :
- 빅 데이터를위한 ETL 및 ELT를 간소화합니다.
- 스파크의 속도와 규모를 달성하십시오.
- 실시간으로의 이동을 가속화합니다.
- 여러 데이터 소스를 처리합니다.
- 하나의 지붕 아래에 수많은 커넥터를 제공하므로 필요에 따라 솔루션을 사용자 정의 할 수 있습니다.
단점 :
- 커뮤니티 지원이 더 좋을 수 있습니다.
- 개선되고 사용하기 쉬운 인터페이스를 가질 수 있습니다.
- 팔레트에 사용자 컴포넌트를 추가하기가 어렵습니다.
가격 : 빅 데이터 용 오픈 스튜디오는 무료입니다. 나머지 제품의 경우 구독 기반의 유연한 비용을 제공합니다. 평균적으로 연간 5 명의 사용자에게 평균 $ 50,000의 비용이들 수 있습니다. 그러나 최종 비용은 사용자 수 및 에디션에 따라 달라집니다.
각 제품에는 무료 평가판이 제공됩니다.
Talend 웹 사이트로 이동 하려면 여기 를 클릭 하세요 .
# 13) Rapidminer
Rapidminer는 데이터 과학, 기계 학습 및 예측 분석을위한 통합 환경을 제공하는 크로스 플랫폼 도구입니다. 1 개의 논리 프로세서와 최대 10,000 개의 데이터 행을 허용하는 무료 버전뿐만 아니라 소형, 중형 및 대형 독점 에디션을 제공하는 다양한 라이선스가 제공됩니다.
Hitachi, BMW, Samsung, Airbus 등과 같은 조직에서 RapidMiner를 사용하고 있습니다.
장점 :
- 오픈 소스 Java 코어.
- 일선 데이터 과학 도구 및 알고리즘의 편리함.
- 코드 옵션 GUI 기능.
- API 및 클라우드와 잘 통합됩니다.
- 탁월한 고객 서비스 및 기술 지원.
단점 : 온라인 데이터 서비스가 개선되어야합니다.
가격 : Rapidminer의 상업 가격은 $ 2.500부터 시작합니다.
Small Enterprise Edition은 사용자 당 연간 $ 2,500입니다. 중형 엔터프라이즈 버전은 사용자 당 연간 $ 5,000입니다. 대기업 에디션은 사용자 당 연간 $ 10,000의 비용이 듭니다. 전체 가격 정보는 웹 사이트를 확인하세요.
Rapidminer 웹 사이트로 이동 하려면 여기 를 클릭 하십시오 .
# 14) Qubole
Qubole 데이터 서비스는 사용자의 사용을 자체적으로 관리, 학습 및 최적화하는 독립적이고 포괄적 인 빅 데이터 플랫폼입니다. 이를 통해 데이터 팀은 플랫폼을 관리하는 대신 비즈니스 결과에 집중할 수 있습니다.
Qubole을 사용하는 많은 유명한 이름 중 Warner 음악 그룹, Adobe 및 Gannett가 있습니다. Qubole의 가장 가까운 경쟁자는 Revulytics입니다.
장점 :
- 가치 실현 시간 단축.
- 유연성 및 확장 성 향상.
- 최적화 된 지출
- 빅 데이터 분석 채택 강화.
- 사용하기 쉬운.
- 공급 업체 및 기술 종속을 제거합니다.
- 전 세계 AWS의 모든 리전에서 사용할 수 있습니다.
가격 : Qubole은 비즈니스 및 엔터프라이즈 에디션을 제공하는 독점 라이선스가 적용됩니다. Business Edition은 무료이며 최대 5 명의 사용자 를 지원합니다.
엔터프라이즈 에디션은 가입 기반 및 유료입니다. 여러 사용자와 사용 사례가있는 대규모 조직에 적합합니다. 가격은 월 $ 199 부터 시작합니다 . Enterprise 에디션 가격에 대해 자세히 알아 보려면 Qubole 팀에 문의해야합니다.
Qubole 웹 사이트로 이동 하려면 여기 를 클릭 하십시오 .
# 15) Tableau
Tableau는 비즈니스 인텔리전스 및 분석을위한 소프트웨어 솔루션으로, 세계 최대 규모의 조직이 데이터를 시각화하고 이해하는 데 도움이되는 다양한 통합 제품을 제공합니다.
이 소프트웨어에는 Tableau Desktop (분석 가용), Tableau Server (기업용) 및 Tableau Online (클라우드 용)의 세 가지 주요 제품이 포함되어 있습니다. 또한 Tableau Reader와 Tableau Public은 최근에 추가 된 두 가지 제품입니다.
Tableau는 모든 데이터 크기를 처리 할 수 있으며 기술 및 비 기술적 고객 기반에 쉽게 접근 할 수 있으며 실시간 맞춤형 대시 보드를 제공합니다. 데이터 시각화 및 탐색을위한 훌륭한 도구입니다.
Tableau를 사용하는 몇 안되는 유명한 이름 중 Verizon Communications, ZS Associates 및 Grant Thornton이 있습니다. Tableau의 가장 가까운 대체 도구는 Looker입니다.
장점 :
- 경쟁사 제품과 비교하여 원하는 유형의 시각화를 생성 할 수있는 뛰어난 유연성.
- 이 도구의 데이터 통합 기능은 놀랍습니다.
- 다양한 스마트 기능을 제공하며 속도면에서 날카 롭습니다.
- 대부분의 데이터베이스와의 연결을 즉시 지원합니다.
- 코드없는 데이터 쿼리.
- 모바일 지원, 대화 형 및 공유 가능한 대시 보드.
단점 :
- 서식 컨트롤이 향상 될 수 있습니다.
- 다양한 Tableau 서버 및 환경 간의 배포 및 마이그레이션을위한 기본 제공 도구가있을 수 있습니다.
가격 : Tableau는 데스크톱, 서버 및 온라인을위한 다양한 버전을 제공합니다. 가격 은 월 $ 35부터 시작합니다 . 각 에디션에는 무료 평가판이 있습니다.
각 에디션의 비용을 살펴 보겠습니다.
- Tableau Desktop 개인용 버전 : $ 35 USD / 사용자 / 월 (연간 청구).
- Tableau Desktop Professional 버전 : $ 70 USD / 사용자 / 월 (연간 청구).
- Tableau Server 온-프레미스 또는 퍼블릭 클라우드 : $ 35 USD / 사용자 / 월 (연간 청구).
- Tableau Online 완전 호스팅 : $ 42 USD / 사용자 / 월 (연간 청구).
Tableau 웹 사이트로 이동 하려면 여기 를 클릭 하십시오 .
# 16) R
R은 가장 포괄적 인 통계 분석 패키지 중 하나입니다. 오픈 소스, 무료, 다중 패러다임 및 동적 소프트웨어 환경입니다. C, Fortran 및 R 프로그래밍 언어로 작성되었습니다.
통계 학자와 데이터 마이너가 널리 사용합니다. 사용 사례에는 데이터 분석, 데이터 조작, 계산 및 그래픽 표시가 포함됩니다.
장점 :
- R의 가장 큰 장점은 패키지 생태계의 광대 함입니다.
- 타의 추종을 불허하는 그래픽 및 차트 이점.
단점 : 단점으로는 메모리 관리, 속도 및 보안이 있습니다.
가격 : R studio IDE와 반짝이는 서버는 무료입니다.
이 외에도 R studio는 기업용 전문 제품을 제공합니다.
- RStudio 상용 데스크톱 라이선스 : 사용자 당 연간 $ 995.
- RStudio Server Pro 상용 라이선스 : 서버 당 연간 $ 9,995 (무제한 사용자 지원).
- RStudio 연결 가격은 사용자 당 월 $ 6.25에서 사용자 당 월 $ 62까지 다양합니다.
- RStudio Shiny Server Pro는 연간 $ 9,995입니다.
공식 웹 사이트로 이동 하려면 여기 를 클릭 하고 RStudio로 이동하려면 여기 를 클릭 하세요 .
상위 15 개의 빅 데이터 도구에 대해 충분히 논의한 후 시장에서 인기있는 몇 가지 다른 유용한 빅 데이터 도구에 대해서도 간략히 살펴 보겠습니다.
추가 도구
# 17) Elasticsearch
Elastic Search는 Lucene을 기반으로하는 크로스 플랫폼, 오픈 소스, 분산 형 RESTful 검색 엔진입니다.
가장 인기있는 엔터프라이즈 검색 엔진 중 하나입니다. Logstash (데이터 수집 및 로그 구문 분석 엔진) 및 Kibana (분석 및 시각화 플랫폼)와 함께 통합 솔루션으로 제공되며 세 가지 제품을 함께 Elastic 스택이라고합니다.
Elastic Search 웹 사이트로 이동 하려면 여기 를 클릭 하세요 .
# 18) OpenRefine
OpenRefine은 무료 오픈 소스 데이터 관리 및 데이터 시각화 도구로 복잡한 데이터를 처리하고 정리, 변환, 확장 및 개선 할 수 있습니다. Windows, Linux 및 macOD 플랫폼을 지원합니다.
OpenRefine 웹 사이트로 이동 하려면 여기 를 클릭 하십시오 .
# 19) 스타 타 윙
Statwing은 분석, 시계열, 예측 및 시각화 기능이있는 통계 도구를 사용하기 편리합니다. 시작 가격은 사용자 당 월 $ 50.00입니다. 무료 평가판도 사용할 수 있습니다.
Statwing 웹 사이트로 이동 하려면 여기 를 클릭 하십시오 .
# 20) CouchDB
Apache CouchDB는 사용 편의성과 확장 가능한 아키텍처를 유지하는 것을 목표로하는 오픈 소스, 크로스 플랫폼, 문서 지향 NoSQL 데이터베이스입니다. 동시성 지향 언어 인 Erlang으로 작성되었습니다.
Apache CouchDB 웹 사이트로 이동 하려면 여기 를 클릭 하십시오 .
# 21) 펜타 호
Pentaho는 데이터 통합 및 분석을위한 응집력있는 플랫폼입니다. 실시간 데이터 처리를 제공하여 디지털 통찰력을 높입니다. 소프트웨어는 엔터프라이즈 및 커뮤니티 에디션으로 제공됩니다. 무료 평가판도 사용할 수 있습니다.
Pentaho 웹 사이트로 이동 하려면 여기 를 클릭 하십시오 .
# 22) Flink
Apache Flink는 데이터 분석 및 기계 학습을위한 오픈 소스 크로스 플랫폼 분산 스트림 처리 프레임 워크입니다. 이것은 Java와 Scala로 작성되었습니다. 내결함성, 확장 가능 및 고성능입니다.
Apache Flink 웹 사이트로 이동 하려면 여기 를 클릭 하십시오 .
# 23) 데이터 클리너
Quadient DataCleaner는 프로그래밍 방식으로 데이터 세트를 정리하고 분석 및 변환을 위해 준비하는 Python 기반 데이터 품질 솔루션입니다.
Quadient DataCleaner 웹 사이트로 이동 하려면 여기 를 클릭 하십시오 .
# 24) 캐글
Kaggle은 예측 모델링 대회 및 호스팅 된 공개 데이터 세트를위한 데이터 과학 플랫폼입니다. 크라우드 소싱 접근 방식에서 작동하여 최고의 모델을 제시합니다.
Kaggle 웹 사이트로 이동 하려면 여기 를 클릭 하십시오 .
# 25) 하이브
Apache Hive는 데이터 요약, 쿼리 및 분석을 용이하게하는 Java 기반 교차 플랫폼 데이터웨어 하우스 도구입니다.
# 26) 스파크
Apache Spark는 데이터 분석, 기계 학습 알고리즘 및 빠른 클러스터 컴퓨팅을위한 오픈 소스 프레임 워크입니다. 이것은 Scala, Java, Python 및 R로 작성되었습니다.
Apache Spark 웹 사이트로 이동 하려면 여기 를 클릭 하십시오 .
# 27) IBM SPSS 모델러
SPSS는 데이터 마이닝 및 예측 분석을위한 독점 소프트웨어입니다. 이 도구는 데이터 탐색에서 기계 학습에 이르기까지 모든 작업을 수행 할 수있는 드래그 앤 드래그 인터페이스를 제공합니다. 매우 강력하고 다양하며 확장 가능하고 유연한 도구입니다.
SPSS 웹 사이트로 이동 하려면 여기 를 클릭 하십시오 .
# 28) 오픈 텍스트
OpenText 빅 데이터 분석은 비즈니스 사용자와 분석가를 위해 설계된 고성능 종합 솔루션으로, 데이터를 쉽고 빠르게 액세스, 혼합, 탐색 및 분석 할 수 있습니다.
OpenText 웹 사이트로 이동 하려면 여기 를 클릭 하십시오 .
# 29) 오라클 데이터 마이닝
ODM은 Oracle 데이터 및 투자를 생성, 관리, 배포 및 활용할 수있는 데이터 마이닝 및 전문 분석을위한 독점 도구입니다.
ODM 웹 사이트로 이동 하려면 여기 를 클릭 하십시오 .
# 30) Teradata
Teradata 회사는 데이터웨어 하우징 제품 및 서비스를 제공합니다. Teradata 분석 플랫폼은 분석 기능과 엔진, 선호하는 분석 도구, AI 기술 및 언어, 여러 데이터 유형을 단일 워크 플로에 통합합니다.
Teradata 웹 사이트로 이동 하려면 여기 를 클릭 하십시오 .
# 31) BigML
BigML을 사용하면 초고속 실시간 예측 앱을 빌드 할 수 있습니다. 데이터 세트와 모델을 만들고 공유 할 수있는 관리 형 플랫폼을 제공합니다.
BigML 웹 사이트로 이동 하려면 여기 를 클릭 하세요 .
# 32) 실크
Silk는 주로 이기종 데이터 소스 통합을 목표로하는 연결된 데이터 패러다임 기반의 오픈 소스 프레임 워크입니다.
Silk 웹 사이트로 이동 하려면 여기 를 클릭 하십시오 .
# 33) CartoDB
CartoDB는 위치 인텔리전스 및 데이터 시각화 도구 역할을하는 부분 유료 SaaS 클라우드 컴퓨팅 프레임 워크입니다.
CartoDB 웹 사이트로 이동 하려면 여기 를 클릭 하십시오 .
# 34) Charito
Charito는 대부분의 인기있는 데이터 소스에 연결하는 간단하고 강력한 데이터 탐색 도구입니다. SQL을 기반으로하며 매우 쉽고 빠른 클라우드 기반 배포를 제공합니다.
Charito 웹 사이트로 이동 하려면 여기 를 클릭 하십시오 .
# 35) Plot.ly
Plot.ly 는 데이터를 그리드로 가져와 분석하고 통계 도구를 활용하기위한 GUI를 보유하고 있습니다. 그래프를 삽입하거나 다운로드 할 수 있습니다. 매우 빠르고 효율적으로 그래프를 생성합니다.
Plot.ly 웹 사이트로 이동 하려면 여기 를 클릭 하십시오 .
# 36) 블록 스프링
Blockspring은 API 데이터를 검색, 결합, 처리 및 처리하는 방법을 간소화하여 중앙 IT의 부하를 줄입니다.
Blockspring 웹 사이트로 이동 하려면 여기 를 클릭 하십시오 .
# 37) OctoParse
Octoparse는 코딩없이 웹 데이터를 쉽게 추출하는 데 도움 이되는 클라우드 중심 웹 크롤러 입니다.
Octoparse 웹 사이트로 이동 하려면 여기 를 클릭 하십시오 .
결론
우리는 요즘 시장에서 빅 데이터 운영을 지원할 수있는 도구가 많다는 것을 알게되었습니다.
이들 중 일부는 오픈 소스 도구 였고 나머지는 유료 도구였습니다.
프로젝트 요구 사항에 따라 올바른 빅 데이터 도구를 현명하게 선택해야합니다.
도구를 완성하기 전에 항상 먼저 평가판을 탐색하고 도구의 기존 고객과 연결하여 리뷰를받을 수 있습니다.
'IT박사' 카테고리의 다른 글
[빅 데이터] 빅데이터 분석가가 되기 위한 핵심 스킬 5가지 (0) | 2020.08.21 |
---|---|
[빅 데이터] 사례연구 - 넷플릭스(Netflex)(넷플릭스) (0) | 2020.08.18 |
[소프트웨어] 무료 WordPress 페이지 빌더 플러그인 Top 22 (0) | 2020.08.13 |
[빅데이터] 시각화 툴 BEST TOP 5 (0) | 2020.08.05 |
[소프트웨어] 화이트 보드 애니메이션 소프트웨어 TOP 12 (2) | 2020.07.29 |
댓글