본문 바로가기
IT박사

[권박사의 초이스] 최고의 빅데이터 분석용 오픈소스 BEST 15

by GDBS 2021. 6. 11.
728x170

오늘은 빅데이터 분석용 오픈소스 BEST 15를 소개하려고 합니다.

 

1. 하둡

 

아파치 하둡 소프트웨어 라이브러리는 빅 데이터 프레임 워크입니다. 컴퓨터 클러스터 전체에 걸쳐 대규모 데이터 세트를 분산 처리 할 수 ​​있습니다. 단일 서버에서 수천 대의 머신으로 확장하도록 설계된 최고의 빅 데이터 도구 중 하나입니다.

특징 :

  • HTTP 프록시 서버 사용시 인증 개선
  • Hadoop 호환 파일 시스템 작업에 대한 사양
  • POSIX 스타일 파일 시스템 확장 속성 지원
  • 개발자의 분석 요구 사항을 충족하는 데 적합한 강력한 에코 시스템을 제공하는 빅 데이터 기술과 도구가 있습니다.
  • 데이터 처리에 유연성을 제공합니다.
  • 더 빠른 데이터 처리가 가능합니다.

다운로드 링크 : https://hadoop.apache.org/releases.html

 

Apache Hadoop

Download Hadoop is released as source code tarballs with corresponding binary tarballs for convenience. The downloads are distributed via mirror sites and should be checked for tampering using GPG or SHA-512. Version Release date Source download Binary dow

hadoop.apache.org

 

 

2. HPCC

HPCC 는 LexisNexis Risk Solution에서 개발 한 빅 데이터 도구입니다. 단일 플랫폼, 단일 아키텍처 및 데이터 처리를위한 단일 프로그래밍 언어를 제공합니다.

특징 :

  • 훨씬 적은 코드로 빅 데이터 작업을 수행하는 고효율 빅 데이터 도구 중 하나입니다.
  • 높은 중복성과 가용성을 제공하는 빅 데이터 처리 도구 중 하나입니다.
  • Thor 클러스터의 복잡한 데이터 처리에 모두 사용할 수 있습니다.
  • 개발, 테스트 및 디버깅을 단순화하는 그래픽 IDE
  • 병렬 처리를 위해 코드를 자동으로 최적화합니다.
  • 확장 성 및 성능 향상 제공
  • ECL 코드는 최적화 된 C ++로 컴파일되며 C ++ 라이브러리를 사용하여 확장 할 수도 있습니다.

다운로드 링크 : https://hpccsystems.com/try-now

 

Try Now | HPCC Systems

Create your own high performance computing cluster (Thor) and/or query cluster (ROXIE).

hpccsystems.com

 

 

3. Storm (폭풍)

Storm 은 무료 빅 데이터 오픈 소스 계산 시스템입니다. 분산 된 실시간 내결함성 처리 시스템을 제공하는 최고의 빅 데이터 도구 중 하나입니다. 실시간 계산 기능.

특징 :

  • 노드 당 초당 100 만 바이트 메시지를 처리하는 것으로 벤치마킹 된 빅 데이터 도구 목록에서 최고의 도구 중 하나입니다.
  • 머신 클러스터에서 실행되는 병렬 계산을 사용하는 빅 데이터 기술 및 도구가 있습니다.
  • 노드가 죽으면 자동으로 다시 시작됩니다. 작업자는 다른 노드에서 다시 시작됩니다.
  • Storm은 각 데이터 단위가 최소한 한 번 또는 정확히 한 번 처리되도록 보장합니다.
  • 일단 배포되면 Storm은 확실히 빅 데이터 분석을위한 가장 쉬운 도구입니다.

다운로드 링크 : http://storm.apache.org/downloads.html

 

Apache Storm downloads

Copyright © 2019 Apache Software Foundation. All Rights Reserved. Apache Storm, Apache, the Apache feather logo, and the Apache Storm project logos are trademarks of The Apache Software Foundation. All other marks mentioned may be trademarks or registered

storm.apache.org

 

 

4.Qubole

Qubole Data는 자율적 인 빅 데이터 관리 플랫폼입니다. 자체 관리되고 자체 최적화되며 데이터 팀이 비즈니스 결과에 집중할 수있는 빅 데이터 오픈 소스 도구입니다.

특징 :

  • 모든 사용 사례를위한 단일 플랫폼
  • Cloud에 최적화 된 Engine을 탑재 한 오픈 소스 빅 데이터 소프트웨어입니다.
  • 포괄적 인 보안, 거버넌스 및 규정 준수
  • 신뢰성, 성능 및 비용을 최적화하기 위해 실행 가능한 경고, 통찰력 및 권장 사항을 제공합니다.
  • 반복적 인 수동 작업 수행을 방지하기 위해 정책을 자동으로 제정합니다.

다운로드 링크 : https://www.qubole.com/

 

The Open Data Lake Company | Qubole

Qubole is the open data lake company that provides an open, simple and secure data lake platform for machine learning, streaming analytics, data exploration, and ad-hoc analytics. No other platform provides the openness and data workload flexibility of Qub

www.qubole.com

 

 

5. Cassandra (카산드라)

아파치 카산드라의 데이터베이스는 광범위하게 많은 양의 데이터의 효과적인 관리를 제공하기 위해 현재 사용된다.

특징 :

  • 사용자에게 더 낮은 지연 시간을 제공하여 여러 데이터 센터에서 복제 지원
  • 데이터는 내결함성을 위해 여러 노드에 자동으로 복제됩니다.
  • 전체 데이터 센터가 다운 된 경우에도 데이터 손실을 감당할 수없는 애플리케이션에 가장 적합한 최고의 빅 데이터 도구 중 하나입니다.
  • Cassandra는 지원 계약을 제공하고 타사에서 제공하는 서비스를 제공합니다.

다운로드 링크 : http://cassandra.apache.org/download/

 

Apache Cassandra | Blog

Apache Cassandra 3.0 Released on 2021-02-01, and supported until 6 months after 4.0 release (date TBD). 3.0.24 (pgp, sha256 and sha512) Apache Cassandra 2.2 Released on 2020-11-04, and supported until 4.0 release (date TBD) 2.2.19 (pgp, sha256 and sha512)

cassandra.apache.org

 

 

6. Statwing (스테이트윙)

Statwing 은 사용하기 쉬운 통계 도구입니다. 빅 데이터 분석가를 위해 구축되었습니다. 최신 인터페이스는 통계 테스트를 자동으로 선택합니다.

특징 :

  • 모든 데이터를 몇 초 만에 탐색 할 수있는 빅 데이터 소프트웨어입니다.
  • Statwing은 데이터를 정리하고, 관계를 탐색하고, 몇 분 안에 차트를 만드는 데 도움이됩니다.
  • Excel 또는 PowerPoint로 내보내는 히스토그램, 산점도, 히트 맵 및 막대 차트를 만들 수 있습니다.
  • 또한 결과를 일반 영어로 번역하므로 통계 분석에 익숙하지 않은 분석가

다운로드 링크 : https://www.statwing.com/

 

 

7. CouchDB (카우치DB)

CouchDB 는 JavaScript를 사용하여 웹 또는 쿼리에 액세스 할 수있는 JSON 문서에 데이터를 저장합니다. 내결함성 스토리지로 분산 확장을 제공합니다. Couch Replication Protocol을 정의하여 데이터에 액세스 할 수 있습니다.

풍모:

  • CouchDB는 다른 데이터베이스처럼 작동하는 단일 노드 데이터베이스입니다.
  • 여러 서버에서 단일 논리 데이터베이스 서버를 실행할 수있는 빅 데이터 처리 도구 중 하나입니다.
  • 유비쿼터스 HTTP 프로토콜과 JSON 데이터 형식을 사용합니다.
  • 여러 서버 인스턴스에서 데이터베이스를 쉽게 복제
  • 문서 삽입, 업데이트, 검색 및 삭제를위한 간편한 인터페이스
  • JSON 기반 문서 형식은 여러 언어로 번역 가능

다운로드 링크 : http://couchdb.apache.org/

 

Apache CouchDB

Ecosystem CouchDB is built for servers (from a Raspberry Pi to big cloud installations), while PouchDB is built for mobile & desktop web-browsers and Couchbase Lite is built for native iOS & Android apps. And all of them can seamlessly replicate data with

couchdb.apache.org

 

 

8. Pentaho(펜타호)

Pentaho 는 데이터 추출, 준비 및 혼합을위한 빅 데이터 도구를 제공합니다. 비즈니스 운영 방식을 바꾸는 시각화 및 분석을 제공합니다. 이 빅 데이터 도구를 사용하면 빅 데이터를 빅 인사이트로 전환 할 수 있습니다.

특징 :

  • 효과적인 데이터 시각화를위한 데이터 액세스 및 통합
  • 사용자가 소스에서 빅 데이터를 설계하고 정확한 분석을 위해 스트리밍 할 수 있도록 지원하는 빅 데이터 소프트웨어입니다.
  • 데이터 처리를 클러스터 내 실행과 원활하게 전환하거나 결합하여 처리를 극대화합니다.
  • 차트, 시각화 및보고를 포함한 분석에 쉽게 액세스하여 데이터를 확인할 수 있습니다.
  • 고유 한 기능을 제공하여 광범위한 빅 데이터 소스 지원

다운로드 링크 : https://www.hitachivantara.com/en-us/products/data-management-analytics/pentaho/download-pentaho.html

 

Pentaho Trial Download for 30 Days

Download and start your 30 days Pentaho free trial to get the most value from your data with Pentaho Enterprise Edition.

www.hitachivantara.com

 

 

9. Flink (플링크)

Apache Flink 는 빅 데이터 스트림 처리를위한 최고의 오픈 소스 데이터 분석 도구 중 하나입니다. 분산되고 고성능이며 항상 사용 가능하며 정확한 데이터 스트리밍 애플리케이션입니다.

특징 :

  • 순서가 맞지 않거나 늦게 도착하는 데이터에 대해서도 정확한 결과를 제공합니다.
  • 상태 저장 및 내결함성이 있으며 장애로부터 복구 할 수 있습니다.
  • 수천 개의 노드에서 실행되는 대규모로 수행 할 수있는 빅 데이터 분석 소프트웨어입니다.
  • 처리량 및 대기 시간 특성이 우수
  • 이 빅 데이터 도구는 이벤트 시간 의미 체계를 사용하여 스트림 처리 및 창을 지원합니다.
  • 시간, 수 또는 데이터 기반 창에 대한 세션을 기반으로 유연한 창을 지원합니다.
  • 데이터 소스 및 싱크 용 타사 시스템에 대한 광범위한 커넥터를 지원합니다.

다운로드 링크 : https://flink.apache.org/

 

Apache Flink: Stateful Computations over Data Streams

Apache Flink® — Stateful Computations over Data Streams

flink.apache.org

 

 

10. Cloudera(클라우데라)

Cloudera 는 가장 빠르고 간편 하며 매우 안전한 최신 빅 데이터 플랫폼입니다. 누구나 확장 가능한 단일 플랫폼 내의 모든 환경에서 모든 데이터를 가져올 수 있습니다.

특징 :

  • 고성능 빅 데이터 분석 소프트웨어
  • 다중 클라우드에 대한 프로비저닝을 제공합니다.
  • AWS, Microsoft Azure 및 Google Cloud Platform에서 Cloudera Enterprise 배포 및 관리
  • 클러스터를 가동 및 종료하고 필요할 때 필요한만큼만 지불
  • 데이터 모델 개발 및 훈련
  • 보고, 탐색 및 셀프 서비스 비즈니스 인텔리전스
  • 모니터링 및 탐지를위한 실시간 통찰력 제공
  • 정확한 모델 채점 및 제공

다운로드 링크 : https://www.cloudera.com/

 

Cloudera | The Enterprise Data Platform Company

Cloudera delivers an enterprise data cloud platform for any data, anywhere, from the Edge to AI.

www.cloudera.com

 

 

11. Open Refine(오픈 리파인)

Open Refine 은 강력한 빅 데이터 도구입니다. 복잡한 데이터를 처리하고 정리하고 한 형식에서 다른 형식으로 변환하는 데 도움이되는 빅 데이터 분석 소프트웨어입니다. 또한 웹 서비스 및 외부 데이터로 확장 할 수 있습니다.

 

특징 :

  • OpenRefine 도구를 사용하면 대규모 데이터 세트를 쉽게 탐색 할 수 있습니다.
  • 다양한 웹 서비스로 데이터 세트를 연결하고 확장하는 데 사용할 수 있습니다.
  • 다양한 형식으로 데이터 가져 오기
  • 몇 초 만에 데이터 세트 탐색
  • 기본 및 고급 세포 변형 적용
  • 여러 값을 포함하는 셀을 처리 할 수 ​​있습니다.
  • 데이터 세트 간의 즉각적인 링크 생성
  • 텍스트 필드에서 명명 된 엔티티 추출을 사용하여 자동으로 주제 식별
  • Refine Expression Language의 도움으로 고급 데이터 작업 수행

다운로드 링크 : https://openrefine.org/download.html

 

Download · OpenRefine

You will find on this page a list of OpenRefine distributions and extensions available for download. Are we missing something? Want to fix a typo? You can submit changes (pull request) from here. Official Distribution Read the installation instructions. Yo

openrefine.org

 

 

12.Rapid Miner(래피드 마이너)

RapidMiner 는 최고의 오픈 소스 데이터 분석 도구 중 하나입니다. 데이터 준비, 기계 학습 및 모델 배포에 사용됩니다. 새로운 데이터 마이닝 프로세스를 구축하고 예측 분석을 설정하기위한 제품군을 제공합니다.

특징 :

  • 여러 데이터 관리 방법 허용
  • GUI 또는 일괄 처리
  • 사내 데이터베이스와 통합
  • 대화 형 공유 가능한 대시 보드
  • 빅 데이터 예측 분석
  • 원격 분석 처리
  • 데이터 필터링, 병합, 결합 및 집계
  • 예측 모델 구축, 훈련 및 검증
  • 스트리밍 데이터를 수많은 데이터베이스에 저장
  • 보고서 및 트리거 된 알림

다운로드 링크 : https://my.rapidminer.com/nexus/account/index.html#downloads

 

RapidMiner Account

Oops, looks like something went wrong! Your account has been blocked! For more information, please contact us. Congratulations! Your RapidMiner account has been activated. We've sent you an email with a link that allows you to set your password. Your accou

my.rapidminer.com

 

13. Data Cleaner(데이터 클리너)

DataCleaner 는 데이터 품질 분석 애플리케이션이자 솔루션 플랫폼입니다. 강력한 데이터 프로파일 링 엔진이 있습니다. 확장 가능하므로 데이터 정리, 변환, 일치 및 병합을 추가합니다.

특징 :

  • 대화 형 및 탐색 적 데이터 프로파일 링
  • 퍼지 중복 레코드 감지
  • 데이터 변환 및 표준화
  • 데이터 검증 및보고
  • 참조 데이터를 사용하여 데이터 정리
  • Hadoop 데이터 레이크에서 데이터 수집 파이프 라인 마스터
  • 사용자가 처리에 시간을 보내기 전에 데이터에 대한 규칙이 올바른지 확인하십시오.
  • 이상 값 및 기타 악의적 인 세부 정보를 찾아 잘못된 데이터를 제외하거나 수정합니다.

다운로드 링크 : http://datacleaner.org/

 

DataCleaner | Better data for better business decisions

 

datacleaner.org

 

 

14. Kaggle(캐글)

Kaggle 은 세계에서 가장 큰 빅 데이터 커뮤니티입니다. 조직과 연구원이 데이터 및 통계를 게시하는 데 도움이됩니다. 데이터를 원활하게 분석 할 수있는 최적의 장소입니다.

특징 :

  • 오픈 데이터를 발견하고 원활하게 분석 할 수있는 최고의 장소
  • 열린 데이터 세트를 찾기위한 검색 창
  • 개방형 데이터 이동에 기여하고 다른 데이터 애호가와 연결

다운로드 링크 : https://www.kaggle.com/

 

Kaggle: Your Machine Learning and Data Science Community

Kaggle is the world’s largest data science community with powerful tools and resources to help you achieve your data science goals.

www.kaggle.com

 

15. HIVE(하이브)

Hive 는 오픈 소스 빅 데이터 소프트웨어 도구입니다. 프로그래머는 Hadoop에서 대용량 데이터 세트를 분석 할 수 있습니다. 대규모 데이터 세트를 매우 빠르게 쿼리하고 관리하는 데 도움이됩니다.

특징 :

  • 상호 작용 및 데이터 모델링을위한 쿼리 언어와 같은 SQL 지원
  • 두 가지 주요 작업 맵과 감속기로 언어를 컴파일합니다.
  • Java 또는 Python을 사용하여 이러한 작업을 정의 할 수 있습니다.
  • 구조화 된 데이터 만 관리하고 쿼리하도록 설계된 Hive
  • Hive의 SQL에서 영감을받은 언어는 Map Reduce 프로그래밍의 복잡성에서 사용자를 분리합니다.
  • Java Database Connectivity (JDBC) 인터페이스를 제공합니다.

다운로드 링크 : https://hive.apache.org/downloads.html

 

Downloads

Downloads Releases may be downloaded from Apache mirrors: Download a release now! On the mirror, all recent releases are available, but are not guaranteed to be stable. For stable releases, look in the stable directory. News 17 January 2021: release 2.3.8

hive.apache.org

 

 

 

728x90
반응형
그리드형

댓글