Data Science and the Art of Producing Entertainment at Netflix

Netflix tech blog 중
Data Science and the Art of Producing Entertainment at Netflix포스트 내용을 정리해보았습니다

한편의 드라마, 영화를 만드는 일은 오케스트라의 협연에 비유할 수 있습니다. 어떤 내용을 담을지부터 어디서, 어떻게 촬영을 할지 그리고 촬영이 끝나고 나서도 편집하고 다른 나라에 배포하는 것까지..
무엇보다 한정된 예산안에서 이런 문제들이 고려되어야 합니다.

스튜디오 프로덕션은 사전 제작 (계획, 예산 책정), 프로덕션 (주요 촬영 ), 포스트 프로덕션 (편집, 사운드 믹싱), 로컬리제이션 및 품질 관리 (자막 생성, 기술적 결함 제거) 등이 있습니다

포스트에선 여러문제들 중에서 예산계획, 위치찾기, 세트제작 및 배우 일정지정과 같은 비즈니스 및 기술적 결정에 초점을 맞추고 있습니다

Georgia or Gibraltar?

Do we shoot in Georgia or in Gibraltar?
(촬영장소를 어디로할지?)
Do we hire a thousand extras or lean on VFX?
(실제촬영을 할지 아니면 가상효과를 사용할지?)
Do we keep a 10-hour workday or a 12-hour workday?
(근무시간은 어떻게 정할지?)

각각의 선택은 프로젝트의 비용, 타임 라인 및 작품의 결과에 막대한 영향을 미칠 수 있습니다. 전통적으로 이러한 결정은 인간의 경험과 직관에 뿌리를두고 있습니다. 생산에 대한 다양한 특성(지리적 위치, 작품의 성향, 일정 뿐만 아니라 장르, 다른 작품과의 유사성)을 고려하여 비용이 얼마나들 것인지 추정해야 합니다.

비용을 추정하기 위해 모델을 구축 할 때 핵심 과제는 데이터 희소성입니다. 각 지역에 기반한 데이터가 부족하기 때문입니다. 한 가지 해결책은 도메인 지식과 전문 지식을 활용하는 것입니다.

비용을 계층 적으로 구성하고 (Figure 2) 이 계층을 반영하는 모델에 배치하고 마지막으로 도메인 지식을 반영한 비율을 사전 순위로 설정한다면 각 비용의 부분 변화를 효율적으로 모델링할 수 있습니다.
설명을 더한다면 Atlanta에서의 비용을 X, New Orleans에서의 비용을 Y라고 한다면 우리가 구하려는건 X/Y의 비율 Rxy입니다. 전체비용을 구하는 건 데이터의 희소성으로 인해 계산하기가 힘듭니다. 따라서 비용을 여러 세부 비용을 나누어(장비, 노동력 등등) 계산을 한다면 대략적으로나마 전체 비용을 추정할 수 있습니다.

It’s a wrap for the day, or is it?

효율적이고 효과적으로 인원 및 장비들을 스케쥴링하는 것이 영화 및 TV 제작의 중심적인 물류 문제라고 할 수 있습니다. 예를 들면 톱스타 A 배우는 촬영스케쥴이 빡빡해서 우리 드라마 촬영에는 일주일 동안만 있습니다.

다양한 제약 조건과 목표를 만족하는 매일매일의 주요촬영 순서를 정해야합합니다. 수학적 최적화는 초기 단계의 생산 계획을 알리는 대략적인 일정을 생성하는 데 도움이 됩니다.

작품이 N 개의 장면으로 구성되어 있고, D 일 동안 L 개의 위치에서 하나의 단위로 촬영되었다고 가정하고 촬영할 때마다 대략적으로 시간을 예측한다고 가정해봅시다. 수 많은 변수와 제약조건으로 목표를 만족하는 결과를 내야합니다. 단순한 모델을 사용하더라도 합리적인 모양의 일정을 생성한다면 이러한 스케줄은 초기 단계 계획 및 보다 세분화 된 스케쥴링을위한 시작점으로 유용하게 사용됩니다.

Visuals Behind the Scenes

TV 프로그램이나 영화 당 수백 개의 작업이(편집, 사운드 믹싱) 촬영이 완료된 후에도 진행되므로 병목현상을 식별하는 것이 어렵습니다. 이런 문제들을 데이터 과학을 활용해서 해결할 수 있습니다.

Figure 4: Sankey diagram

위에 보는 그림은 Sankey diagram 입니다. 촬영이후 작업에 대해 workflow를 시각화한 것입니다. 빨간네모 박스 부분은 흐름이 원활하지 않고 끊어지는 부분으로 해당 지점에서 인력을 늘리고 기술 향상에 집중하면 전체적인 작업 부하를 조정할 수 있습니다.

Figure 5: the movement of assets between locations

Netflix 콘텐츠 제작이 전 세계적으로 확대됨에 따라 지리학적 비주얼은 점점 스튜디오 데이터를 분석하는 중요한 부분이 되었습니다. 그림에서 원은 촬영지를, 직선은 자산의 이동을 나타내고 있습니다. 원의 크기가 더 크고 연결하는 직선들이 많을수록 더 많은 수요가 필요합니다. 이런 경우에 좀 더 최적화를 시도해볼 여지가 있습니다.

Ich liebe Netflix! (로컬리제이션 및 품질 관리)

190 개국에 걸쳐 수백만 명의 회원이 20 개 이상의 언어로 콘텐츠를 사용합니다. 작품이 출시되기 전에 k 개월 마다 언어 별 소비량을 예측해야 합니다. 데이터를 활용하여 “비슷한” 작품의 언어 별 소비량을 분석, 이를 토대로 새로운 작품의 언어 별 소비량에 대한 예측을 할 수 있습니다.

Figure6: the per-language consumption for each show in years

A나라에서 B나라보다 더 소비가 많을 것이라 예측이 된다면 로컬리제이션 작업이 A나라에 맞춰 먼저 진행될 수 있습니다. 소비량을 예측할 때 장르, 언어 (현지화 된 언어뿐만 아니라 콘텐츠의 원래 언어) 및 더빙된 오디오 또는 자막으로 소비되었는지 여부도 고려되어야 합니다.