본문 바로가기
IT박사

[빅 데이터] 빅데이터 분석가가 되기 위한 핵심 스킬 5가지

by GDBS 2020. 8. 21.
728x170

전통적인 데이터 분석은 본질적으로 구조화되거나 구조화되지 않은 거대한 데이터 인 빅 데이터의 출현에 대처하지 못했습니다. 관계형 데이터베이스 관리 시스템을 탐색하고 통계 알고리즘을 사용하여 통찰력을 얻을 수있는 것보다 훨씬 더 많은 것이 필요합니다.

좋은 소식은 작은 데이터 세트, 큰 데이터 세트 또는 구조화되지 않은 데이터 세트를 처리하든 분석 부분이 동일하게 유지된다는 것입니다. 빅 데이터에서 가장 필요한 것은 매분 처리되는 엄청난 양의 데이터에서 관련 정보를 추출하는 능력입니다. 이를 위해서는 기존 분석과 손을 잡는 기술이 필요합니다.

 

 

그럼, 빅 데이터 분석가가되는 데 필요한 몇 가지 핵심 기술을 살펴 보겠습니다.

 

1. 프로그래밍 스킬

전통적인 데이터 분석가는 본격적인 프로그래머가 아니어도 벗어날 수 있지만 빅 데이터 분석가는 코딩에 매우 익숙해야합니다.

 

이 요구 사항의 주된 이유 중 하나는 빅 데이터가 여전히 진화 단계에 있기 때문입니다. 빅 데이터 분석가가 처리해야하는 크고 복잡한 데이터 세트에 대한 표준 프로세스는 많지 않습니다. 비정형 데이터를 처리하기 위해 매일 많은 사용자 정의가 필요합니다.
필요한 언어-R, Python, Java, C ++, Ruby, SQL, Hive, SAS, SPSS, MATLAB, Weka, Julia, Scala. 언어를 모르기 때문에 빅 데이터 과학자에게 장벽이되어서는 안됩니다. 

 

최소한 R, Python 및 Java를 알아야합니다. 작업하는 동안 다양한 도구를 사용할 수 있습니다. 프로그래밍 언어는 단지 도구이며 키티에있는 더 많은 도구입니다.

 

 

2. 데이터웨어 하우징 스킬

관계형 및 비 관계형 데이터베이스 시스템에 대한 경험은 필수입니다.

비 관계형 데이터베이스의 예로는 Mysql, Oracle, DB2가 있습니다.

 

비 관계형 데이터베이스의 예로는,

NoSql : Hbase, HDFS, MongoDB, CouchDB, Cassandra, Teradeta 등이 있습니다.

 

 

 

3. 프레임워크 활용 스킬

Apache Spark, Apache Storm, Apache Samza, Apache Flink 및 클래식 MapReduce 및 Hadoop과 같은 프레임 워크를 잘 이해하고 잘 알고 있어야 합니다. 

이러한 기술들은 빅 데이터를 스트리밍하고, 분석 및 처리하는데 유용하게 활용됩니다.

 

 

 

 

4. 정량적 통계 응용 스킬

빅 데이터를 처리하려면 기술을 많이 사용해야하지만 데이터 분석의 기본은 통계 및 선형 대수에 대한 좋은 지식입니다. 통계는 데이터 과학의 기본 구성 요소이며 요약 통계, 확률 분포, 무작위 변수, 가설 테스트 프레임 워크와 같은 핵심 개념에 대한 이해는 모든 장르의 데이터 과학자에게 중요합니다.

 

 

5. 비즈니스 지식

분석의 초점을 유지하고 데이터를 검증, 정렬, 관련, 평가하기 위해 빅 데이터 과학자의 가장 중요한 기술은 작업중인 도메인에 대한 충분한 지식을 보유하는 것입니다. 사실, 빅 데이터 분석가가 수요가 많은 이유는 기술적 측면, 통계 및 비즈니스를 철저히 이해하는 리소스를 찾기가 매우 드물기 때문입니다. 비즈니스와 통계에는 좋은 분석가가 있지만 프로그래밍에는 없습니다. 비즈니스 목표의 맥락에서 프로그램을 배치하는 방법을 모르는 전문 프로그래머가 있습니다.

분석의 초점을 유지하고 데이터를 검증, 정렬, 관련, 평가하기 위해 빅 데이터 과학자의 가장 중요한 기술은 작업중인 도메인에 대한 충분한 지식을 보유하는 것입니다. 사실, 빅 데이터 분석가가 수요가 많은 이유는 기술적 측면, 통계 및 비즈니스를 철저히 이해하는 리소스를 찾기가 매우 드물기 때문입니다.

비즈니스와 통계에는 좋은 분석가가 있지만 프로그래밍에는 없습니다. 비즈니스 목표의 맥락에서 프로그램을 배치하는 방법을 모르는 전문 프로그래머가 있습니다.

마지막으로, 기계 학습을 잘 유지하면 기존 데이터 분석을 사용하여 처리하기 너무 어려운 복잡한 데이터 구조 및 학습 패턴을 관리하는 데 도움이되므로 매우 유용합니다.

 

 

728x90
반응형
그리드형

댓글