오늘은 빅데이터 분석용 오픈소스 BEST 15를 소개하려고 합니다.
1. 하둡
아파치 하둡 소프트웨어 라이브러리는 빅 데이터 프레임 워크입니다. 컴퓨터 클러스터 전체에 걸쳐 대규모 데이터 세트를 분산 처리 할 수 있습니다. 단일 서버에서 수천 대의 머신으로 확장하도록 설계된 최고의 빅 데이터 도구 중 하나입니다.
특징 :
- HTTP 프록시 서버 사용시 인증 개선
- Hadoop 호환 파일 시스템 작업에 대한 사양
- POSIX 스타일 파일 시스템 확장 속성 지원
- 개발자의 분석 요구 사항을 충족하는 데 적합한 강력한 에코 시스템을 제공하는 빅 데이터 기술과 도구가 있습니다.
- 데이터 처리에 유연성을 제공합니다.
- 더 빠른 데이터 처리가 가능합니다.
다운로드 링크 : https://hadoop.apache.org/releases.html
2. HPCC
HPCC 는 LexisNexis Risk Solution에서 개발 한 빅 데이터 도구입니다. 단일 플랫폼, 단일 아키텍처 및 데이터 처리를위한 단일 프로그래밍 언어를 제공합니다.
특징 :
- 훨씬 적은 코드로 빅 데이터 작업을 수행하는 고효율 빅 데이터 도구 중 하나입니다.
- 높은 중복성과 가용성을 제공하는 빅 데이터 처리 도구 중 하나입니다.
- Thor 클러스터의 복잡한 데이터 처리에 모두 사용할 수 있습니다.
- 개발, 테스트 및 디버깅을 단순화하는 그래픽 IDE
- 병렬 처리를 위해 코드를 자동으로 최적화합니다.
- 확장 성 및 성능 향상 제공
- ECL 코드는 최적화 된 C ++로 컴파일되며 C ++ 라이브러리를 사용하여 확장 할 수도 있습니다.
다운로드 링크 : https://hpccsystems.com/try-now
3. Storm (폭풍)
Storm 은 무료 빅 데이터 오픈 소스 계산 시스템입니다. 분산 된 실시간 내결함성 처리 시스템을 제공하는 최고의 빅 데이터 도구 중 하나입니다. 실시간 계산 기능.
특징 :
- 노드 당 초당 100 만 바이트 메시지를 처리하는 것으로 벤치마킹 된 빅 데이터 도구 목록에서 최고의 도구 중 하나입니다.
- 머신 클러스터에서 실행되는 병렬 계산을 사용하는 빅 데이터 기술 및 도구가 있습니다.
- 노드가 죽으면 자동으로 다시 시작됩니다. 작업자는 다른 노드에서 다시 시작됩니다.
- Storm은 각 데이터 단위가 최소한 한 번 또는 정확히 한 번 처리되도록 보장합니다.
- 일단 배포되면 Storm은 확실히 빅 데이터 분석을위한 가장 쉬운 도구입니다.
다운로드 링크 : http://storm.apache.org/downloads.html
4.Qubole
Qubole Data는 자율적 인 빅 데이터 관리 플랫폼입니다. 자체 관리되고 자체 최적화되며 데이터 팀이 비즈니스 결과에 집중할 수있는 빅 데이터 오픈 소스 도구입니다.
특징 :
- 모든 사용 사례를위한 단일 플랫폼
- Cloud에 최적화 된 Engine을 탑재 한 오픈 소스 빅 데이터 소프트웨어입니다.
- 포괄적 인 보안, 거버넌스 및 규정 준수
- 신뢰성, 성능 및 비용을 최적화하기 위해 실행 가능한 경고, 통찰력 및 권장 사항을 제공합니다.
- 반복적 인 수동 작업 수행을 방지하기 위해 정책을 자동으로 제정합니다.
다운로드 링크 : https://www.qubole.com/
5. Cassandra (카산드라)
아파치 카산드라의 데이터베이스는 광범위하게 많은 양의 데이터의 효과적인 관리를 제공하기 위해 현재 사용된다.
특징 :
- 사용자에게 더 낮은 지연 시간을 제공하여 여러 데이터 센터에서 복제 지원
- 데이터는 내결함성을 위해 여러 노드에 자동으로 복제됩니다.
- 전체 데이터 센터가 다운 된 경우에도 데이터 손실을 감당할 수없는 애플리케이션에 가장 적합한 최고의 빅 데이터 도구 중 하나입니다.
- Cassandra는 지원 계약을 제공하고 타사에서 제공하는 서비스를 제공합니다.
다운로드 링크 : http://cassandra.apache.org/download/
6. Statwing (스테이트윙)
Statwing 은 사용하기 쉬운 통계 도구입니다. 빅 데이터 분석가를 위해 구축되었습니다. 최신 인터페이스는 통계 테스트를 자동으로 선택합니다.
특징 :
- 모든 데이터를 몇 초 만에 탐색 할 수있는 빅 데이터 소프트웨어입니다.
- Statwing은 데이터를 정리하고, 관계를 탐색하고, 몇 분 안에 차트를 만드는 데 도움이됩니다.
- Excel 또는 PowerPoint로 내보내는 히스토그램, 산점도, 히트 맵 및 막대 차트를 만들 수 있습니다.
- 또한 결과를 일반 영어로 번역하므로 통계 분석에 익숙하지 않은 분석가
다운로드 링크 : https://www.statwing.com/
7. CouchDB (카우치DB)
CouchDB 는 JavaScript를 사용하여 웹 또는 쿼리에 액세스 할 수있는 JSON 문서에 데이터를 저장합니다. 내결함성 스토리지로 분산 확장을 제공합니다. Couch Replication Protocol을 정의하여 데이터에 액세스 할 수 있습니다.
풍모:
- CouchDB는 다른 데이터베이스처럼 작동하는 단일 노드 데이터베이스입니다.
- 여러 서버에서 단일 논리 데이터베이스 서버를 실행할 수있는 빅 데이터 처리 도구 중 하나입니다.
- 유비쿼터스 HTTP 프로토콜과 JSON 데이터 형식을 사용합니다.
- 여러 서버 인스턴스에서 데이터베이스를 쉽게 복제
- 문서 삽입, 업데이트, 검색 및 삭제를위한 간편한 인터페이스
- JSON 기반 문서 형식은 여러 언어로 번역 가능
다운로드 링크 : http://couchdb.apache.org/
8. Pentaho(펜타호)
Pentaho 는 데이터 추출, 준비 및 혼합을위한 빅 데이터 도구를 제공합니다. 비즈니스 운영 방식을 바꾸는 시각화 및 분석을 제공합니다. 이 빅 데이터 도구를 사용하면 빅 데이터를 빅 인사이트로 전환 할 수 있습니다.
특징 :
- 효과적인 데이터 시각화를위한 데이터 액세스 및 통합
- 사용자가 소스에서 빅 데이터를 설계하고 정확한 분석을 위해 스트리밍 할 수 있도록 지원하는 빅 데이터 소프트웨어입니다.
- 데이터 처리를 클러스터 내 실행과 원활하게 전환하거나 결합하여 처리를 극대화합니다.
- 차트, 시각화 및보고를 포함한 분석에 쉽게 액세스하여 데이터를 확인할 수 있습니다.
- 고유 한 기능을 제공하여 광범위한 빅 데이터 소스 지원
9. Flink (플링크)
Apache Flink 는 빅 데이터 스트림 처리를위한 최고의 오픈 소스 데이터 분석 도구 중 하나입니다. 분산되고 고성능이며 항상 사용 가능하며 정확한 데이터 스트리밍 애플리케이션입니다.
특징 :
- 순서가 맞지 않거나 늦게 도착하는 데이터에 대해서도 정확한 결과를 제공합니다.
- 상태 저장 및 내결함성이 있으며 장애로부터 복구 할 수 있습니다.
- 수천 개의 노드에서 실행되는 대규모로 수행 할 수있는 빅 데이터 분석 소프트웨어입니다.
- 처리량 및 대기 시간 특성이 우수
- 이 빅 데이터 도구는 이벤트 시간 의미 체계를 사용하여 스트림 처리 및 창을 지원합니다.
- 시간, 수 또는 데이터 기반 창에 대한 세션을 기반으로 유연한 창을 지원합니다.
- 데이터 소스 및 싱크 용 타사 시스템에 대한 광범위한 커넥터를 지원합니다.
다운로드 링크 : https://flink.apache.org/
10. Cloudera(클라우데라)
Cloudera 는 가장 빠르고 간편 하며 매우 안전한 최신 빅 데이터 플랫폼입니다. 누구나 확장 가능한 단일 플랫폼 내의 모든 환경에서 모든 데이터를 가져올 수 있습니다.
특징 :
- 고성능 빅 데이터 분석 소프트웨어
- 다중 클라우드에 대한 프로비저닝을 제공합니다.
- AWS, Microsoft Azure 및 Google Cloud Platform에서 Cloudera Enterprise 배포 및 관리
- 클러스터를 가동 및 종료하고 필요할 때 필요한만큼만 지불
- 데이터 모델 개발 및 훈련
- 보고, 탐색 및 셀프 서비스 비즈니스 인텔리전스
- 모니터링 및 탐지를위한 실시간 통찰력 제공
- 정확한 모델 채점 및 제공
다운로드 링크 : https://www.cloudera.com/
11. Open Refine(오픈 리파인)
Open Refine 은 강력한 빅 데이터 도구입니다. 복잡한 데이터를 처리하고 정리하고 한 형식에서 다른 형식으로 변환하는 데 도움이되는 빅 데이터 분석 소프트웨어입니다. 또한 웹 서비스 및 외부 데이터로 확장 할 수 있습니다.
특징 :
- OpenRefine 도구를 사용하면 대규모 데이터 세트를 쉽게 탐색 할 수 있습니다.
- 다양한 웹 서비스로 데이터 세트를 연결하고 확장하는 데 사용할 수 있습니다.
- 다양한 형식으로 데이터 가져 오기
- 몇 초 만에 데이터 세트 탐색
- 기본 및 고급 세포 변형 적용
- 여러 값을 포함하는 셀을 처리 할 수 있습니다.
- 데이터 세트 간의 즉각적인 링크 생성
- 텍스트 필드에서 명명 된 엔티티 추출을 사용하여 자동으로 주제 식별
- Refine Expression Language의 도움으로 고급 데이터 작업 수행
다운로드 링크 : https://openrefine.org/download.html
12.Rapid Miner(래피드 마이너)
RapidMiner 는 최고의 오픈 소스 데이터 분석 도구 중 하나입니다. 데이터 준비, 기계 학습 및 모델 배포에 사용됩니다. 새로운 데이터 마이닝 프로세스를 구축하고 예측 분석을 설정하기위한 제품군을 제공합니다.
특징 :
- 여러 데이터 관리 방법 허용
- GUI 또는 일괄 처리
- 사내 데이터베이스와 통합
- 대화 형 공유 가능한 대시 보드
- 빅 데이터 예측 분석
- 원격 분석 처리
- 데이터 필터링, 병합, 결합 및 집계
- 예측 모델 구축, 훈련 및 검증
- 스트리밍 데이터를 수많은 데이터베이스에 저장
- 보고서 및 트리거 된 알림
다운로드 링크 : https://my.rapidminer.com/nexus/account/index.html#downloads
13. Data Cleaner(데이터 클리너)
DataCleaner 는 데이터 품질 분석 애플리케이션이자 솔루션 플랫폼입니다. 강력한 데이터 프로파일 링 엔진이 있습니다. 확장 가능하므로 데이터 정리, 변환, 일치 및 병합을 추가합니다.
특징 :
- 대화 형 및 탐색 적 데이터 프로파일 링
- 퍼지 중복 레코드 감지
- 데이터 변환 및 표준화
- 데이터 검증 및보고
- 참조 데이터를 사용하여 데이터 정리
- Hadoop 데이터 레이크에서 데이터 수집 파이프 라인 마스터
- 사용자가 처리에 시간을 보내기 전에 데이터에 대한 규칙이 올바른지 확인하십시오.
- 이상 값 및 기타 악의적 인 세부 정보를 찾아 잘못된 데이터를 제외하거나 수정합니다.
다운로드 링크 : http://datacleaner.org/
14. Kaggle(캐글)
Kaggle 은 세계에서 가장 큰 빅 데이터 커뮤니티입니다. 조직과 연구원이 데이터 및 통계를 게시하는 데 도움이됩니다. 데이터를 원활하게 분석 할 수있는 최적의 장소입니다.
특징 :
- 오픈 데이터를 발견하고 원활하게 분석 할 수있는 최고의 장소
- 열린 데이터 세트를 찾기위한 검색 창
- 개방형 데이터 이동에 기여하고 다른 데이터 애호가와 연결
다운로드 링크 : https://www.kaggle.com/
15. HIVE(하이브)
Hive 는 오픈 소스 빅 데이터 소프트웨어 도구입니다. 프로그래머는 Hadoop에서 대용량 데이터 세트를 분석 할 수 있습니다. 대규모 데이터 세트를 매우 빠르게 쿼리하고 관리하는 데 도움이됩니다.
특징 :
- 상호 작용 및 데이터 모델링을위한 쿼리 언어와 같은 SQL 지원
- 두 가지 주요 작업 맵과 감속기로 언어를 컴파일합니다.
- Java 또는 Python을 사용하여 이러한 작업을 정의 할 수 있습니다.
- 구조화 된 데이터 만 관리하고 쿼리하도록 설계된 Hive
- Hive의 SQL에서 영감을받은 언어는 Map Reduce 프로그래밍의 복잡성에서 사용자를 분리합니다.
- Java Database Connectivity (JDBC) 인터페이스를 제공합니다.
다운로드 링크 : https://hive.apache.org/downloads.html
'IT박사' 카테고리의 다른 글
[유틸] 알FTP 5.3.3 버전 다운로드 (마지막 버전) (0) | 2021.06.17 |
---|---|
[무료 소프트웨어] 최고의 무료 프로그램 모음 TOP 70 - (Feat.생산성,오피스,메신저,편집,음악 등) (0) | 2021.06.16 |
[웹크롤러] 파이썬 공개 웹 크롤러 추천!! 스크래피(Scrapy) 오픈소스 (0) | 2021.06.10 |
[간트차트] 간트차트 무료 소프트웨어 TOP 5 (2) | 2021.05.31 |
[SW] 개발자가 꼭 알아두어야하는 개발툴 TOP 15 (0) | 2021.05.17 |
댓글