수학동아 2019년 12월호 표지
학생들을 대상으로 하는 어떤 잡지📚에서 인터뷰🎤 요청이 들어왔다.
“○○○교수님과의 대화 속 얼핏 왓챠에서 근무하는 제자가 있다는 말씀이 기억나 이렇게 불쑥 연락드려요. 다름이 아니라 이번 12월호 기사에 추천 알고리즘🤖에 관한 내용을 기획 중이어서요. 혹시 간단한 인터뷰가 가능한지 여쭙습니다. 최근 아이들이 유튜브나 왓챠플레이처럼 영상 스트리밍 플랫폼을 많이 접하는데요. 플랫폼의 추천 방식을 소개하면 아이들에게 흥미롭게 다가갈 수 있고, 유익할 거라 생각됩니다. 인터뷰 내용을 통해 왓챠플레이에 대한 관심도와 연구개발에 대한 직업적 흥미도 높아질 것입니다.”
재미있는 경험이 될 것 같아서 수락을 했고, 이메일로 사전 질문을 받아서 답변도 미리 드렸다. 기자님들이 사무실에까지 와주셔서 인터뷰도 하고 사진도 찍었다. 한 가지 아쉬운 점은 기사 구성과 독자의 눈높이 때문인지 사전인터뷰 내용은 기사에 거의 실리지 않았다😭. 그래서 그 내용을 블로그에 옮기기로 했다.
아참, 나는 왓챠 R&D팀 harry이고 외부 강연, 세미나, 인터뷰를 활발히 하고 싶으며 많은 관계자들이 이 사실을 알았으면 좋겠다. 문의👉 harry@watcha.con 에서 n을 m으로 바꾼 이메일 주소
[업무에 관해]
1. 카이스트 수학과, 그중에서도 그래프 이론을 전공하셨는데요. 어떻게 왓챠에서 일하게 되셨는지 궁금합니다! 졸업 직후엔 삼성SDS에서 일했습니다. 다양한 분야 중에 IT쪽으로 취업해야겠다는 생각을 하게 되었고, 대기업은 교육 시스템이 잘 갖춰졌을 것 같아서 지원했는데 임원분들이 수학과 출신들에게 좋은 인상을 가지고 있어서 합격을 하게 된 것 같습니다. 삼성SDS에서는 AI 기반 분석 플랫폼 브라이틱스(http://brightics.ai/)를 만들었고 그 때 빅데이터분석과 머신러닝에 대해 많이 알게 되었습니다.🙇 삼성SDS에서는 주로 정형화된 데이터(표, 행렬)를 많이 다뤘고 딥러닝이 아닌 머신러닝을 주로 다뤘습니다. 근무한지 1년 쯤 됐을 때 전공(그래프 이론)을 더 살리고 싶은 생각도 들었고 다양한 종류(이미지, 음성, 동영상, 자연어)의 데이터를 다뤄보고 싶다는 생각도 했습니다. 타이밍 좋게 친구가 왓챠의 구인글(https://team.watcha.com/joinus/)을 보내줬는데 글 스타일이 제 맘에 들기도 했고 ‘하게 될 업무’나 ‘기준에 잘 맞는 분’이 저와 맞는 것 같아서 지원을 하게 되었습니다. 스타트업에 대한 호기심도 컸고 평소에 드라마나 영화를 좋아한 것도 많은 영향을 준 것 같습니다. 당시에 (삼성SDS도 좋은 회사라서) ‘이직을 꼭 해야지’라는 생각으로 지원한게 아니었는데, 별점 데이터는 왓챠만 가지고 있는 희소성 있는 데이터이기 때문에 그 데이터를 다뤄보고 싶은 마음에 이직을 결심하게 되었습니다. 참고로 사람과 작품을 꼭짓점으로 생각하고 사람이 작품에 평가를 했으면 선으로 잇고 별점을 그 선의 가중치라고 생각하면 별점 데이터는 가중치가 있는 이분그래프로 생각을 할 수도 있습니다.
Figure from ‘Graph Convolutional Matrix Completion’ by van Der Berg, Kipf, and Welling, 2018.
2. R&D라는 직업이 어린 친구들에게는 조금 생소할 수도 있을 것 같아요. 어떤 일을 하는 직업인가요? 현재 왓챠에서 어떤 일을 하시나요? R&D는 research and development의 약자인데 말 그대로 연구를 직접 하기도 하고 이미 연구된 결과를 발전시켜서 각자의 산업에 적용하는 일을 합니다. 학계(혹은 일부 기업)에선 최신 기술을 연구하고 논문을 발표하는데 그 기술을 실제 산업에 바로 적용하기엔 무리가 있습니다. 또한 많은 연구가 각자의 영역에서 진행되기 때문에 우리의 영역(영화 추천)으로 가지고 왔을 때 잘 작동하지 않는 경우도 있습니다. 최신 연구 결과와 알고리즘을 검토하고 우리의 서비스에 어떻게 적용할지를 주로 봅니다. 최근엔 운 좋게 논문을 직접 쓰기도 했는데 현재 조지아텍에 있는 대학원생이 올해 여름에 인턴으로 왔을 때 같이 일한 결과물입니다. 왓챠에서는 콘텐츠 추천에 대한 연구와 서비스에 어떻게 적용할지에 대한 생각을 가장 많이 합니다. 지금 서비스 되고 있는 알고리즘이 너무 좋아서 아직 그걸 뛰어넘는 알고리즘을 만들지 못했는데 계속 도전하고 있습니다. 또, 영화나 드라마 등의 작품에는 영상 외에도 포스터, 등장인물, 줄거리 같은 추가정보가 있고 우리 서비스에는 댓글/대댓글, 팔로잉/팔로우 관계 등의 부가적인 데이터가 있습니다. 이러한 데이터들을 어떻게 활용해야 추천 시스템이나 시청량 분석에 도움이 될지 계속 연구하고 있습니다.
3. 예상 별점을 더 잘 추측하는 것과 원하는 영상을 잘 추천하는 것은 어떤 차이가 있나요? 좋은 질문입니다. 시청여부와 별점에는 약간의 차이가 있습니다.
예를 들어, 영화 〈신과 함께-인과 연〉, 〈해운대〉는 천만 관객을 돌파했는데도 평균 별점이 3.5보다 낮고, 영화 〈김복동〉, 〈시간을 달리는 소녀〉는 평균 별점이 4.0을 넘지만 관객 수는 10만명 미만입니다.
그래서 우리도 시청확률을 예측할 때와 예상 별점을 계산할 때 다른 알고리즘을 사용합니다. ‘왓챠(왓챠플레이 말고 왓챠 앱) 👉 영화 👉 (아래로 스크롤) 왓챠 리스트’를 보면 ‘왓챠플레이 최고 인기작’과 ‘왓챠 별점 TOP’가 있는데 이 목록을 구경하면 조금 느낌이 오실 것 같습니다.
[알고리즘에 관해]
1. 추천 알고리즘에는 협업 필터링, 콘텐츠 기반 필터링이 대표적인데요. 두 방법을 설명해주실 수 있나요? 콘텐츠 기반 추천은 어떤 콘텐츠를 좋게 본 사람에게 비슷한 콘텐츠를 추천하는 방법입니다. 예를 들어, 〈날씨의 아이〉는 〈너의 이름은.〉, 〈언어의 정원〉과 비슷하고 〈말레피센트〉는 〈신데렐라〉, 〈이상한 나라의 앨리스〉, 그리고 〈엑시트〉는 〈극한직업〉, 〈해운대〉와 비슷합니다. 협업 필터링은 사용자들의 취향정보를 이용하여 만족할만한 콘텐츠를 예측하는 방법입니다. 우리는 취향정보로 주로 별점⭐을 쓰고 있고 5억 개가 넘는 별점 데이터가 사용자에게 좋은 추천을 제공할 수 있도록 해줍니다. 취향정보가 어떻게 표현될지는 어떤 알고리즘을 적용하느냐에 따라 달라지고 머신러닝을 사용하는 방법은 주로 취향정보가 숫자로는 나오나 그 숫자가 무엇을 의미하는지는 모릅니다. 단순하게 공포면 -1, 로맨스면 +1, 전쟁영화면 +2 등의 표현이 아닙니다.
2. 그렇다면 왓챠는 둘 중 어떤 알고리즘을 사용했나요? 둘 다 아니라면 어떤 알고리즘인가요? 많은 추천 시스템이 그럴거라고 생각하는데 둘 다 사용하고 있습니다. 자세한 알고리즘은 비밀입니다. 많이 알려진 방법이자 영화 별점을 예측하는 방법 중의 기본은 행렬 분해입니다. 관심 있으신 분은 ‘matrix factorization’을 검색해보시면 될 것 같아요.
3. 다른 영상 추천 서비스의 추천과 어떤 차별점이 있나요?
일단, 국내 서비스 중에 우리와 넷플릭스 말고 추천을, 특히 개인화 추천을 제대로 하는 영상 서비스가 있는지 모르겠습니다. 많은 서비스들이 지금 인기있는 콘텐츠나 돈을 많이 투자했기에 밀어줘야하는 콘텐츠를 홈 화면에 노출합니다. 하지만 우리는 유저에게 가입과 동시에 별점 15개 이상을 입력받고 그 데이터를 이용해서 신규 유저에게도 개인화 추천을 제공합니다. 개개인의 취향이 다르기 때문에 왓챠플레이에 나오는 콘텐츠의 순서는 사람마다 다릅니다. 왓챠플레이에 ‘이번 주의 발견’에서 매주 금요일에 다섯 작품을 추천해주고 있는데 많은 이용 부탁드립니다. 우리는 왓챠를 통해서 모든 방송사의 작품에 대한 유저 반응을 얻을 수 있습니다. 왓챠에서 지상파 3사는 물론 tvN과 JTBC의 작품도 평가할 수 있고 당연히 넷플릭스의 작품도 평가할 수 있습니다. 하지만 넷플릭스는 넷플릭스에서 볼 수 있는 작품들에 대해서만 사용자의 긍정/부정 반응을 얻을 수 있습니다. 넷플릭스에 비해 유저 수는 우리가 적겠지만 추천에 사용할 수 있는, 유저의 반응이 반영된 콘텐츠 수는 우리가 더 많습니다.
4. ‘왓챠’는 도서 분야도 추천하는데요. 영상 추천과 다른 부분이 있나요?
크게 다른 부분은 없습니다. 왓챠 추천의 핵심은 사용자들의 별점 데이터인데 도서📚에도 별점 데이터가 많기 때문에 같은 알고리즘을 사용하고 있습니다.
[기타]
1. 왓챠를 계속 발전시키기 위해서 알고리즘도 연구되고 있을 텐데요. 추천 알고리즘 연구에 있어 현재 주력하는 부분은 무엇인가요? 시간 정보📅를 반영할 수 있는 알고리즘을 생각하고 있고, 저의 전공인 그래프 이론과도 연결을 시키려는 노력을 하고 있습니다. 또, 강화학습을 서비스에 적용하는 방법도 고민중입니다.
2. 현재 추천 알고리즘은 실생활에 많이 적용되고 있습니다. ‘이런 부분까지 적용이 가능하다?’ 생각해두신 것이 있을까요? 아직 개인화 추천이 적용되는 곳은 그리 많지 않습니다. 상대방을 위해 추천하기보단 본인이 좋게 경험한 것을 제시하며 추천한다고 하고 있죠.🤔 많은 사람들이 개인화 추천을 인지하는 순간 더 큰 변화가 있을 것이라고 믿고 있습니다. 어떤 부분까지 적용될지는 아직 모르겠고, 일단 오늘 점심 메뉴를 추천하는 것부터 누가 잘 해주면 좋겠다는 생각을 종종 합니다.
3. 알고리즘 또는 수학에 관심이 많은 학생에게 한 말씀 부탁드립니다!
왓챠 많은 사용 부탁드립니다. 유튜브, 인스타, 페이스북, 트위터, 브런치, 1boon, 네이버tv, 카카오tv에 구독✅과 좋아요👍 부탁드립니다. 학생들은 공부를 해야하니 왓챠플레이는 조금 고민이 되네요. 구독 시스템이라서 많이 볼수록 사용자에게 이득인 구조라서… 전공과 관련된 교양도서(예를 들어, 수학동아)를 많이 읽어서 교과서 외에서도 많은 재미를 얻길 바랍니다. 대학생 이상이 되면 많은 자료가 영어로 작성되어 있습니다. 영어 공부를 잘 하셔서 언어가 수학 공부에 방해되지 않길 바랍니다.