스포티파이가 한국에 들어온지 두 달이 되었습니다. 3년 전에 넷플릭스가 처음 한국에 등장했을 때 초기 가입자수가 10만명 미만이었다는 추정에 비해, 스포티파이는 한국 등장 한 달만에 62만명(21년 2월, 코리안클릭 기준)의 월간 사용자를 기록했습니다. (지금 가입하면 3개월을 무료로 사용할 수 있는 혜택이 있기는 하지만) 과연 어떤 점에 사람들이 이렇게 끌렸을까요?
“어쩌면 그렇게 귀신 같이 내 취향인 곡들을 찝어 내는지 신기하다”
스포티파이의 차별화 포인트로 추천을 이야기하는 분이 많습니다. 음악 평론가부터 일반인까지 대부분 공통된 의견입니다. 팀 뮤직데이터도 동의합니다. 어쩌면 플랫폼 기업 중에서 스포티파이보다 추천을 잘 하는 곳은 없을지도 모르겠습니다. 스포티파이가 뮤직 데이터를 다뤄왔던 행보를 공부해보니 그렇습니다.
Step 1. 데이터 수집 및 연구에 압도적 투자
스포티파이는 굉장히 많은 논문을 내고 있습니다. (이 논문들은 특허로 연결됩니다.) 논문을 살펴보면 살펴볼수록 상세한 데이터 포인트를 많이 갖추고 있는 점에 놀라게 됩니다.
스포티파이가 수집하고 활용하는 데이터를 정량적으로 파악해보았습니다.
- 사용자 데이터 수집 : 2016년 기준, 매월 18조개의 이벤트를 수집하며 이를 처리하기 위해 월 30만달러(한화 3억 이상)의 클라우드시스템을 이용 (참고)
- 데이터 인프라 투자 : 2016년도에 데이터 환경을 자체 전산 설비(On-premise)에서 구글 클라우드로 완전 이전을 발표하고 2년 간의 준비 끝에 약 1년 동안 이전 작업을 완료함
- 데이터 활용을 위한 환경 구축 : 예를 들면, 필요한 데이터를 찾기 쉽게 하는 내부 협업 도구를 개발했습니다. 덕분에 스포티파이 직원은 데이터도 많이 사용합니다. 2017년 당시 500 명 이상의 순 사용자(당시 임직원의 약 20% 수준)가 8월 한달 동안 200PB의 데이터를 처리(1인당 평균 약 400TB 수준)했다고 합니다.
- 음악 데이터의 분류 : 3천만개가 넘는 곡에 자동적으로 곡의 정서를 태깅하는 시스템을 마련했습니다.
- 높은 R&D 연구 비율 : 스포티파이의 R&D 비용은 8억5천만 유로 수준입니다. 이는 2020년 매출의 10% 정도이며 2013년 R&D 비용과 비교하면 10배 정도가 상승했습니다.(참고 : 삼성전자가 매출의 9% 정도 연구개발비를 사용)
Step 2. 데이터 활용 기술을 가진 회사를 지속적으로 인수
스포티파이가 아무리 대단해도 스텝 1의 모든 일을 혼자서 해낼 수는 없습니다. 그래서 데이터 활용 능력이 뛰어난 기업들을 꾸준히 인수했습니다. 좋은 인재를 모으고 팀을 만들기 위해 기술력 있는 팀과 회사를 사들인 것입니다. (스포티파이가 인수한 회사의 내역은 위키피디아를 참고하시면 좋습니다.)
지금까지 스포티파이가 더 나은 큐레이션을 위해 어떤 고민을 했는지 정리해봤습니다.
이외에도 정교한 날씨 데이터의 수집을 위해 AccuWeather(2017년)와 제휴를 하기도 했습니다.
스포티파이가 인수한 회사의 거래액은 대부분 비공개이지만, Echo Nest 하나의 회사만 해도 1억 달러 가까운 투자를 했습니다. 대체 왜 이렇게 큰 금액을 들여가며 데이터 기업을 인수할까요? 얼핏 생각했을 때 추천을 잘하고 싶으면 추천 알고리즘을 잘 만드는 기업만 인수하면 될 것 같은데, 스포티파이가 인수한 기업은 데이터 수집, 가공, 정제 등 다양합니다.
답은 간단합니다. 데이터가 부실하면 아무리 좋은 추천 알고리즘을 사용해도 품질이 낮을 수 밖에 없기 때문입니다. 인공지능 분야의 거장 Andrew Ng 교수는 deeplearning.ai의 기고문에서 이렇게 말합니다.
기본기에 충실한 투자를 했기 때문에 스포티파이의 추천이 지금처럼 유명해질 수 있었던 게 아닐까요?
Step 3. 때와 장소에 맞는 추천 알고리즘의 배합
돈을 막대하고 알차게 쓴 스포티파이, 그러면 추천은 실제로 어떻게 이루어질까요?
스포티파이의 추천을 요약하면 때와 장소에 맞는 추천 알고리즘의 적절한 배합입니다.
- Step 1을 통해 얻은 다양하고 방대한 데이터를 Step 2의 기술과 결합하여 각종 추천 알고리즘을 만듭니다.
- BaRT(Bandits for Recommendations as Treatments)가 사용자 홈화면에 제시할 각종 추천 플레이리스트들을 결정합니다. 음악을 듣는 사용자의 때와 장소, 상황에 따라 추천 알고리즘도 개개인에 적합하도록 적절히 튜닝합니다.
- 추천에 대한 사용자의 반응을 끊임없이 평가하고 분석합니다. 30초 이내에 스킵을 하는지, 앨범이나 곡 상세 페이지를 열어보는지, 추천 재생 목록을 많이 듣는지, 무료 이용자가 유료 이용자로 전환되게 기여하고 있는지 등등 사용자 단위의 분석과 비지니스 단위의 분석을 입체적으로 합니다.
당신의 기분에 맞춰 음악을 추천하려 한다는 기사나, 날씨에 기반한 추천 시도를 보면 스포티파이는 추천 알고리즘에 개인의 선호 뿐 아니라 청취자의 현재 맥락과 환경 정보를 반영합니다. 재즈 리스너가 평균적으로 음악을 길게 청취한다든지, 잠잘 때 듣는 플레이리스트의 청취시간 같은 개인적인 정보도 추천에 반영하고 있습니다. (참고)
모든 기업은 스포티파이를 보고 배울 수 있다
이번 뉴스레터가 FLO의 경쟁업체인 스포티파이를 칭찬하는 글이라 의아하실 수도 있을 것 같습니다.
FLO는 한국 음악 스트리밍 플랫폼 중 후발주자입니다. 그래서 음악 데이터를 어떻게 다뤄야 하는지 하나부터 열까지 처음부터 해야만 했습니다. 그런데 데이터를 어떻게 다뤄야 하는지 노하우를 체계적으로 정리한 곳이 국내에는 흔하지 않았습니다. 훌륭한 기술 블로그와 자료를 발견해도 산업이 다른 경우가 많았습니다.
이럴 때 같은 산업에서 데이터를 잘 다루는 선배의 업적을 흃어보는 것보다 나은 길은 없습니다. 데이터 환경을 구성하고 음악 산업에 데이터 조직은 어떻게 기능할 수 있는지 스포티파이는 좋은 참고자료가 되었습니다.
모든 회사는 데이터 회사다, 란 말이 나온지도 어언 3년이 지났습니다. 스포티파이는 데이터 기업의 근사한 이정표입니다. 무엇보다 자신들의 노력을 상세히 공유합니다. 팀 뮤직데이터의 뉴스레터도 스포티파이의 데이터를 다루는 정신을 본받으며 시작했기 때문에, 앞으로도 저희가 배운 것을 저희 나름의 방식으로 계속 소개하려고 합니다.
미처 못다룬 내용과 참고자료
이 글의 초고에는 기술적인 설명이 상세히 적혀있습니다. 뉴스레터에는 요약해 담았고 자세한 내용은 이곳에서 보실 수 있습니다. 특히, 추천 알고리즘에 대한 내용이 궁금한 분들에게 추천합니다.
개발 영역에 관심이 있는 분에게 스포티파이 엔지니어링 블로그는 노다지입니다. 스포티파이 랩스라는 블로그도 있습니다.
데이터 일을 하고 계신 분이라면 스포티파이 리서치 블로그를 꼭 들어가 보셔야 합니다. 현장에서 다루는 뮤직데이터를 잘 정리한 논문들이 많이 모여있습니다. 스포티파이가 새로운 장르를 발견하는 방법도 흥미로울 것 같습니다.
댓글
의견을 남겨주세요