본문 바로가기
IT박사

[빅 데이터] 사례연구 - 넷플릭스(Netflex)(넷플릭스)

by GDBS 2020. 8. 18.
728x170

Netflix 란 무엇이며 무엇을합니까?

Netflix는 미국을 기반으로하는 미디어 서비스 제공 업체입니다. 구독 모델을 통해 영화 스트리밍을 제공합니다. 여기에는 영화와 함께 TV 쇼 및 자체 제작 콘텐츠가 포함됩니다. 처음에 Netflix는 DVD를 판매하고 우편으로 대여 서비스를 제공했습니다. 그들은 1 년 후 DVD 판매를 중단했지만 임대 서비스를 계속했습니다. 2010 년에는 온라인에 접속하여 스트리밍 서비스를 시작했습니다. 그 이후로 Netflix는 세계에서 가장 크고 가장 큰 스트리밍 서비스 중 하나로 성장했습니다 (Netflix, 2020).

 

Netflix는 영화 및 TV 프로그램 제작에 적극적인 역할을 담당했습니다. 이 회사는 데이터 중심적입니다. 넷플릭스는 인터넷과 스토리 텔링의 중심에 있습니다. 그들은 새로운 인터넷 텔레비전을 발명하고 있습니다. 그들의 주요 수입원은 사용자의 구독료에서 비롯됩니다. 이를 통해 사용자는 다양한 인터넷 연결 서비스에서 언제든지 다양한 영화 및 TV 프로그램의 데이터를 스트리밍 할 수 있습니다 (Gomez-Uribe et al., 2016).

 

 

 

그들의 연구 영역 (주제 영역)은 무엇입니까?

Netflix의 주요 자산은 기술입니다. 특히 추천 시스템. 추천 시스템의 연구는 정보 필터링 시스템의 한 분야입니다 (Recommender 시스템, 2020). 정보 필터링 시스템은 데이터가 사람에게 도달하기 전에 데이터 스트림에서 불필요한 정보를 제거합니다. 추천 시스템은 제품을 추천하거나 항목에 등급을 지정하는 작업을 처리합니다. 주로 YouTube, Spotify 및 Netflix와 같은 회사에서 청중을위한 재생 목록을 생성하는 데 사용됩니다. Amazon은 추천 시스템을 사용하여 사용자에게 상품을 추천합니다. 대부분의 추천 시스템은 기록을 사용하여 사용자를 연구합니다. 추천 시스템에는 두 가지 기본 접근 방식이 있습니다. 협업 필터링 또는 콘텐츠 필터링입니다. 협업 필터링은 과거에 무언가를 좋아했던 사람들이 미래에도 동일한 경험을 좋아할 것이라는 개념에 의존합니다. 콘텐츠 기반 필터링 방법은 사용자에 대한 정보가 아닌 항목에 대한 정보를 알고있는 장소에서 유용합니다. 사용자에게 특정한 분류 작업으로 기능합니다. 항목의 특성과 관련하여 사용자의 좋아요 및 싫어요를 모델링하는 분류기를 모델링합니다.

 

 

왜 그들은 빅 데이터 프로젝트를 원하거나 필요로 했습니까?

Netflix의 모델은 1 년 만에 DVD 대여 / 판매에서 글로벌 스트리밍으로 변경되었습니다 (Netflix Technology Blog, 2017a). 케이블 TV와 달리 인터넷 TV는 선택에 관한 것입니다. Netflix는 스트리밍 서비스를 통해 이용할 수있는 다양한 옵션 중에서 선택하여 시청자를 돕고 싶었습니다. 케이블 TV는 지리 측면에서 매우 엄격합니다. 그러나 인터넷 TV 카탈로그에는 다양한 인구 통계에서 다양한 취향의 사람들에게 어필하기 위해 다양한 장르의 작품이 포함 된 다양한 항목이 나와 있습니다.

DVD 판매 중 추천 문제는 사용자가 DVD에 별 1 개에서 별 5 개까지 제공 할 별의 수를 예측하는 것이 었습니다. 이미 영상을 시청 한 회원에게서받을 수있는 유일한 작업 이었기 때문에 집중하는 유일한 작업이었다. 그들은 시청 경험, 통계에 대해 전혀 알지 못하며 시청하는 동안 피드백을 얻지 못할 것입니다. 넷플릭스가 스트리밍 서비스로 전환되었을 때 그들은 회원들의 활동 데이터에 막대한 액세스 권한을가집니다. 여기에는 장치, 하루 중 시간, 요일 및 시청 빈도와 관련된 세부 정보가 포함됩니다. 넷플릭스를 구독하고 시청하는 사람들이 늘어남에 따라 작업은 빅 데이터 프로젝트가되었습니다.

 

 

그들은 어떤 질문에 대답하고 싶었습니까?

Netflix는 사용자에게 다음 콘텐츠를 추천하는 것입니다. 그들이 대답하고 싶은 유일한 질문은 '사용자에게 가능한 한 Netflix를 개인화하는 방법?'입니다. 단일 질문이지만 Netflix가 해결하고자하는 거의 모든 것입니다. 추천은 사이트의 모든 부분에 포함되어 있습니다.

Netflix에 로그인하면 추천이 시작됩니다. 예를 들어, 로그인 후 표시되는 첫 번째 화면은 다음에 볼 가능성이 가장 높은 10 행의 제목으로 구성됩니다. 인식은 개인화의 또 다른 중요한 부분입니다. 그들은 청중에게 자신의 취향에 어떻게 적응하고 있는지 알려줍니다. 그들은 고객이 피드백을 제공하는 동시에 시스템에 대한 신뢰를 쌓기를 원합니다. 그들은 당신이 특정 타이틀을 볼 것이라고 생각하는 이유에 대해 설명합니다. 그들은 '...에 대한 관심에 따라', '당신의 취향이이 행을 만들었습니다'등과 같은 문구를 사용합니다. 유사성은 개인화의 또 다른 부분입니다.

넷플릭스는 영화, 회원, 장르 등의 유사성과 같은 넓은 의미에서 유사성을 개념화합니다. '즉시 볼 수있는 비슷한 제목', '더 비슷하게 ...'등의 문구를 사용합니다. 검색은 또한 영화의 중요한 측면 중 하나입니다.

Netflix 추천 시스템.

 

 

데이터 소스:

(Netflix Technology Blog, 2017b)에 따르면 Netflix 추천 시스템의 데이터 소스는 다음과 같습니다.

  • 회원들의 수십억 등급 세트. 매일 백만 개 이상의 새로운 등급이 추가되고 있습니다.

  • 그들은 여러 측면에서 인기도 메트릭을 사용하고 다르게 계산합니다. 예를 들어 매시간, 매일 또는 매주 계산합니다. 또한 지리적으로 또는 다른 유사성 메트릭을 사용하여 구성원을 구성하는 클러스터를 검사합니다. 이들은 인기가 계산되는 몇 가지 다른 차원입니다.

  • 재생 시간, 재생 시간, 장치 유형, 요일 및 기타 컨텍스트 관련 정보와 같은 관련 데이터를 스트리밍합니다.

  • 구독자가 매일 대기열에 추가하는 패턴과 제목은 수백만 명입니다.

  • 다른 플랫폼의 감독, 배우, 장르, 평가 및 리뷰와 같은 카탈로그의 타이틀과 관련된 모든 메타 데이터입니다.

  • 최근에는 더 나은 제안을 제공하기 위해 자신과 친구들과 관련된 소셜 기능을 추출 할 수 있도록 사용자의 소셜 데이터를 추가했습니다.

  • Netflix 가입자 또는 회원의 검색 관련 텍스트 정보입니다.

  • 내부 데이터 소스 외에도 흥행 정보, 성과 및 비평가 리뷰와 같은 외부 데이터도 사용합니다.

  • 인구 통계, 문화, 언어 및 기타 시간 데이터와 같은 다른 기능이 예측 모델에 사용됩니다.

연구에서 데이터의 크기는 얼마입니까? 즉, 대략 얼마나 많은 데이터 스토리지가 필요합니까?

넷플릭스는 2006 년부터 2009 년까지 유명한 사내 추천 시스템 '시네 매치'를 10 % 개선 할 수있는 알고리즘을 설계 해 달라는 대규모 콘테스트를 진행했습니다. 최고의 개선을 제공 한 사람은 백만 달러를 받게됩니다. 사용자에게 제공되는 데이터 세트의 크기는 1 억 사용자 등급이었습니다. 데이터 세트는 480,189 명의 사용자가 17,770 편의 영화에 부여한 100,480,507 개의 평가로 구성되었습니다. 2009 년에는 BellKor의 Pragmatic Chaos라는 팀에 상이 수여되었습니다. Netflix는 이후 50 억 등급을 처리하도록 알고리즘이 확장되었다고 발표했습니다 (Netflix Technology Blog, 2017a). 따라서 넷플릭스의 추천 시스템을위한 데이터 세트의 크기는 50 억 개 이상의 모든 타이틀 정보로 구성되어 있다고 믿어집니다.

 

어떤 데이터 액세스 권한, 데이터 프라이버시 문제, 어떤 데이터 품질 문제가 발생 했습니까?

(Netflix Prize, 2020)에서 언급했듯이 Netflix는 데이터 세트를 익명화하고 사용자의 개인 정보를 보호하려고 시도했지만 Netflix 경쟁과 관련된 데이터와 관련하여 많은 개인 정보 문제가 발생했습니다. 2007 년 오스틴 대학의 연구원들은 인터넷 영화 데이터베이스에서 등급을 비교하여 익명의 Netflix 데이터 세트에서 사용자를 파악할 수있었습니다. 2009 년이 문제와 관련하여 4 명이 넷플릭스를 상대로 미국 공정 거래법 및 동영상 개인 정보 보호법 위반으로 소송을 제기했습니다. 이에 따라 Netflix는 2010 년 이후 경쟁을 취소했습니다.

 

그들이 직면 한 조직적 (비 기술적) 문제는 무엇입니까?

(Maddodi et al., 2019)에 따르면, 예비 기간 동안 Netflix는 큰 손실을 입었지만 인터넷 사용자의 증가로 Netflix는 상용 기업 모델을 기존 DVD 콘도 및 수입에서 2007 년 온라인 비디오 스트리밍의 출현으로 변경했습니다. Netflix는 Disney 및 Amazon과 같은 경쟁 업체의 등장을 현명하게 예상하여 초기 단계부터 데이터 과학에 많은 투자를했습니다. 이러한 노력의 대부분은 여전히 ​​넷플릭스에 대한 대가를 치르고 있으며 미디어 스트리밍 산업의 최전선이 될 수 있습니다.

 

그들이 직면 한 기술적 과제는 무엇입니까?

시스템을 구축하는 동안 팀이 기술적으로 직면 한 몇 가지 과제는 다음과 같습니다 (Töscher et al., 2009).

  • 단일 출력을 예측하기 위해 여러 모델을 통합합니다.

  • 총제적인 RMSE(평균 제곱근 오차) 최적화.

  • 모델에 대한 자동 매개 변수 조정도 문제였습니다.

  • 통계적 상관 관계를 포착하기위한 글로벌 효과.

  • 글로벌 시간 효과 및 평일 효과 캡처.

  • 단기 효과가 같은 계정을 공유하는 여러 사람 때문인지 또는 사람의 기분 변화 때문인지 감지합니다.

 

추천과 관련된 검색 서비스와 관련하여 Netflix Engineers (Lamkhede et al., 2019)가 발행 한 논문에서 언급 된 과제는 다음과 같습니다.

  • 추천 시스템의 관점에서 동영상을 사용할 수 없습니다.

  • 사용할 수없는 엔터티를 감지,보고 및 대체합니다.

  • 일반적으로 매우 짧은 검색어 길이로 인해 Netflix가 사용자가 검색하는 내용을 이해하기가 매우 어렵습니다.

  • 사용자가 클릭하는 순간, 좋은 결과가 나오는 순간 검색을 렌더링하는 것은 어려운 일입니다.

  • 다양한 인덱싱 체계 및 메트릭을 허용하여 사용자 경험을 최적화합니다.

 

연구 수행 및 결과에 관심이있는 사람 / 조직은 누구입니까?

Netflix의 주요 이해 관계자는 구독자와 시청자입니다. 그들은이 프로젝트의 활동에 직접적으로 영향을받는 사람들입니다. 넷플릭스 추천 시스템은 회사에 매우 성공적이었으며 구독자 수와 시청자 수를 늘리는 데 중요한 요소였습니다. 

2차 이해 관계자는 직원이고, 작업과 관련하여 2 차 이해 관계자는 알고리즘과 시스템의 경우 개발 및 유지 보수에 직접 관여하는 Netflix의 연구팀입니다. 아마존, 훌루, 디즈니 +, 소니, HBO 등 경쟁사들도 넷플릭스 실험의 수행과 결과에 큰 관심을 보이고있다. 결국 그들은 영화를 제작하는 사람들입니다. 넷플릭스와 같은 중개인이 지분을 빼앗길 원하는 이유는 무엇입니까? 그들 중 많은 사람들이 자체 플랫폼을 출시하여 콘텐츠 스트리밍을 시작했지만 Netflix는 처음부터 데이터와 알고리즘에 상당한 투자를함으로써 게임의 선두에있었습니다.

 

 

프로젝트를 수행하기 위해 어떤 HW / SW 리소스를 사용 했습니까?

 

Netflix Technology Stack

추천 시스템을 구축하고 대규모 분석을 수행하기 위해 Netflix는 하드웨어와 소프트웨어에 많은 투자를했습니다. Netflix는 작업 처리 방식에 대한 아키텍처를 발표했습니다. (Basilico, 2013)

추천을 수행하는 방법에는 세 단계가 있습니다. (Netflix Technology Blog, 2017)에서 오프라인 계산은 데이터에 적용되며 사용자의 실시간 분석과는 관련이 없습니다. 실행 시간이 완화되고 알고리즘은 고정 된 시간 간격으로 처리 할 데이터 양에 대한 부담없이 일괄 적으로 훈련됩니다. 그러나 최신 정보를 통합하려면 자주 교육을 받아야합니다. 모델 학습 및 결과 배치 계산과 같은 작업은 오프라인으로 수행됩니다. 그들은 많은 데이터를 다루기 때문에 Pig 또는 Hive를 통해 Hadoop에서 실행하는 것이 좋습니다. 

 

결과는 HDFS뿐만 아니라 S3 및 Cassandra와 같은 다른 데이터베이스에서 게시되고 지원되어야합니다. 이를 위해 Netflix는 Hermes라는 사내 도구를 개발했습니다. 또한 Kafka와 같은 게시-구독 프레임 워크입니다. 그러나 '다중 DC 지원, 추적 메커니즘, JSON에서 Avro 로의 변환, Hermes 콘솔이라는 GUI'와 같은 추가 기능을 제공합니다 (Morgan, 2019). 그들은 오류를 효과적으로 모니터링하고, 경고하고, 투명하게 처리 할 수있는 도구를 원했습니다. Netflix에서 니어 라인 레이어는 오프라인 계산 결과 및 기타 중간 결과로 구성됩니다. 그들은 Cassandra, MySQL 및 EVCache를 사용합니다. 우선 순위는 가장 효율적인 방식으로 데이터를 저장하는 방법에 따라 얼마나 많은 데이터를 저장할 것인지가 아닙니다. 

 

Netflix의 실시간 이벤트 흐름은 자체 개발 한 Manhattan이라는 도구로 지원됩니다. Twitter의 Storm과 매우 비슷하지만 내부 요구 사항에 따라 다른 요구 사항을 충족합니다. 데이터 흐름은 Chukwa에서 Hadoop에 로그인하여 관리합니다. Netflix는 하드웨어 요구 사항을 충족하기 위해 Amazon Web Services에 크게 의존합니다. 보다 구체적으로 그들은 쉽게 확장 가능하고 거의 내결함성이있는 EC2 인스턴스를 사용합니다. 모든 인프라는 클라우드의 AWS에서 실행됩니다.

 

Netflix의 개인화 및 권장 사항을위한 시스템 아키텍처 (Netflix 기술 블로그, 2013)

 

프로젝트를 수행하는 데 필요한 인력 / 전문가 리소스는 무엇입니까?

Netflix는 데이터 과학에 많은 투자를하고 있습니다. 그들은 거의 모든 수준에서 의사 결정을 위해 데이터 분석을 사용하는 데이터 기반 회사입니다. (Vanderbilt, 2018)에 따르면 실리콘 밸리 본사에서 일하는 약 800 명의 Netflix 엔지니어가 있습니다. Netflix는 또한 가장 뛰어난 인재 중 일부를 고용하며 데이터 과학자의 평균 급여는 매우 높습니다. 데이터 엔지니어링, 딥 러닝, 머신 러닝, 인공 지능 및 비디오 스트림 엔지니어링에 대한 전문 지식을 갖춘 엔지니어가 있습니다.
Netflix Prize 챌린지에서 우승 한 팀 'BellKor 's Pragmatic Chaos'는 Andreas Toscher와 Michael Jahrer (BigChaos), Robert Bell, Chris Volinsky (AT & T), Yehuda Koren (Yahoo) (팀 BellKorr) 및 Martin Piotte, Martin Chabbert로 구성되었습니다. (Pragmatic Theory).

 

어떤 프로세스와 기술이 필요 했습니까?

위에서 언급 한 엔지니어링 기술 외에도 Netflix Engineers, CARLOS A. GOMEZ-URIBE 및 NEIL HUNT (Gomez-Uribe et al., 2016)의 논문에서는 추천 시스템이 분류 및 회귀 및 비지도 접근 방식과 같은 감독 된 접근 방식을 사용한다고 설명합니다. 토픽 모델링을 사용한 차원 감소 및 클러스터링 / 압축과 같은. 행렬 분해, 특이 값 분해, 분해 기계, 확률 적 그래픽 모델에 대한 연결 및 다양한 문제에 맞게 쉽게 확장 할 수있는 방법.
Netflix Prize 챌린지와 관련하여 107 개의 알고리즘이 단일 출력을 예측하기위한 앙상블 기술로 ​​사용되었습니다. Matrix factorization, Singular Value Decomposition, Restricted Boltzman Machines는 좋은 결과를 제공하는 가장 중요한 기술 중 일부입니다.

 

대략적인 프로젝트 일정 / 기간은 얼마입니까?

(Netflix Technology Blog, 2017)에 따르면 Netflix 작업을 해결 한 엔지니어들은 상을받은 107 개 알고리즘의 앙상블을 구축하는 데 2000 시간 이상의 작업이 필요하다고보고했습니다. Netflix는 소스 코드를 가져 와서 1 억 등급에서 50 억 등급으로 확장하는 등 한계를 극복하기 위해 노력했습니다.

 

어떤 결과 / 답변을 얻었습니까? 프로젝트의 결과로 조직과 이해 관계자에게 어떤 가치가 있었습니까?

(Gomez-Uribe et. al., 2016)에서 언급했듯이,

  • 추천 시스템의 도움으로 Netflix 사용자의 전반적인 참여율이 증가했습니다. 이로 인해 취소 율이 낮아지고 스트리밍 시간이 늘어났습니다.

  • 구독자의 월간 이탈률은 매우 낮으며 대부분은 고객의 서비스 취소 선택이 아닌 결제 게이트웨이 거래 실패로 인한 것입니다.

  • 개인화 및 추천으로 Netflix를 연간 10 억 달러 이상 절약 할 수 있습니다.

  • 오늘날 사람들이 시청하는 콘텐츠의 75 %는 추천 시스템에서 제공됩니다.

  • 추천 시스템의 개발 및 변경으로 회원 만족도가 높아졌습니다.

넷플릭스 상금 과제와 관련하여 우승 알고리즘은 예측 등급을 높이고 '시네 매치'를 10.06 % 향상시킬 수있었습니다 (Netflix Prize, 2020). (Netflix Technology Blog, 2017b)에 따르면 Singular Value Decomposition은 RMSE를 89.14 %로 줄일 수 있었지만 Restricted Boltzmann Machines는 RMSE를 89.90 %로 줄이는 데 도움이되었습니다. 함께, 그들은 RMSE를 88 %로 줄였습니다.

* RMSE : Root Mean Square Error (평균 제곱근 오차)

 

프로젝트가 성공적 이었습니까?

데이터 과학 기술에 대한 투자는 Netflix가 비디오 스트리밍 업계에서 최고가되는 데 도움이되었습니다. 개인화 및 추천을 통해 회사는 연간 10 억 달러를 절약 할 수 있습니다. 또한 새로운 구독자를 플랫폼으로 유치하는 데 중요한 요소 중 하나입니다. 또한 Netflix Prize 대회에서 우승 한 알고리즘과 관련하여 많은 구성 요소가 오늘날에도 추천 시스템에서 사용되고 있습니다 (Netflix Technology Blog, 2017b). 따라서 프로젝트는 성공한 것으로 간주 될 수 있습니다.

 

발견 된 놀라움이 있었습니까?

(Töscher et al., 2009)에 따르면, 그들은 사람들이 무작위로 영화를 선택하고 평가하지 않는다는 사실로 이해할 수있는 바이너리 정보를 놀랍게도 발견했습니다. 놀랍게도 1 일 효과가 데이터 세트에서 매우 강력하게 관찰되었습니다. 이는 여러 사람이 동일한 계정을 사용하거나 한 사람의 다른 기분 때문일 수 있습니다.

 

프로젝트를 수행하면서 어떤 교훈을 얻었습니까?

앙상블 기술은 좋은 결과를 제공합니다. 단일 기술을 개선하는 대신 여러 기술을 결합하여 단일 결과를 예측했습니다.
모델을 훈련하고 개별적으로 조정하면 최적의 결과를 얻을 수 없습니다. 결과는 전체 앙상블 방법이 다양성과 정확성 사이의 정확한 절충안을 가질 때 가장 좋습니다. 많은 공개 연구가 협업 필터링 영역에 기여했으며 Netflix Prize와 같은 경쟁은 그러한 공개 아이디어와 연구를 촉진 할 수 있습니다.

 

프로젝트의 결과로 어떤 특정 조치가 취 해졌습니까?

경쟁의 결과로 Netflix는 우승 코드를 1 억 등급에서 50 억 등급으로 확장했습니다 (Netflix Technology Blog, 2017b). 그것은 심지어 가장 진보 된 추천 시스템에서 오늘날까지 우승 한 프로젝트의 코드를 사용합니다. Netflix는 비디오 스트리밍 산업에서 성공한 것은 프로젝트와 추가 연구 및 지속적인 개발 덕분입니다.

 

프로젝트를 어떻게 개선 할 수 있었습니까?

A / B 테스트의 절차와 단계는 알고리즘이 아닌 상황을 통한 평가를 포함하여 개선 할 수 있습니다. 추천 시스템의 기존 방법론과는 달리 강화 알고리즘을 사용하여 사용자에게 추천을 제공 할 수 있습니다. 보상은 사용자 만족 일 수 있고 상태는 현재 콘텐츠 일 수 있으며 작업은 차선책 콘텐츠 추천이 될 수 있습니다.

728x90
반응형
그리드형

댓글