A/B 테스팅을 하면서 다른 팀들은 어떤 가설을 기반으로 어떠한 결과를 냈는지 궁금한 적이 많았는데, 이번 기회에 알라미에서 진행했던 A/B 테스팅 중 몇몇 경험들을 공유해보려고 한다.
앱 등록정보 A/B 테스팅
앱 등록정보에 뭐라고 적어야 다운로드가 더 많이 발생할까? 스토어 페이지에 어떤 이미지를 사용해야 더 많은 사용자가 받을까?
플레이스토어 앱 등록정보 예시
플레이스토어에서는 이러한 궁금증을 앱 등록정보 실험(store listing experiments)을 통해 쉽게 해결할 수 있다. 이와 관련하여 알라미에서 진행했던 테스트 몇 가지를 뽑아 가설과 데이터를 정리해보았다.
그래픽 이미지
대상: 일본 가설: 슬로건 (SLEEP IF U CAN)을 강조하면 다운로드율이 증가할 것이다.
기존 버전(좌), 슬로건이 강조된 새로운 버전(우)
결과는 기존대비 다운로드가 +6.2% ~ +26.4% 증가하였으며, 신기하게도 슬로건을 현지화한 경우는 오히려 결과가 좋지 않았다.
결과는 위와 같이 90%의 신뢰 구간으로 최소~최대 예상 값이 나온다
간단한 설명
대상: 한국 가설: 대상 고객 정의를 적어두면 “이건 바로 나!”라고 생각하고 다운로드율이 증가할 것이다.
기존 버전(좌), 대상 고객 정의를 적어둔 새로운 버전(우)
결과는 기존대비 +0.6% ~ + 20.1% 개선되었으며, 여러 번의 대상 고객 정의를 테스트 결과 알라미에 맞는 대상 고객은 ‘기존 알람으로 잘 일어나지 못하는 사람’ 이었다 (결과론적으로 보면 당연해 보인다).
자세한 설명
대상: 독일 가설: 사진으로 알람해제 모드를 첫 줄에 소개하면 (신기해서) 다운로드율이 증가할 것이다.
기존 버전(좌), 사진으로 알람해제에 대해 설명한 새로운 버전(우)
기존의 설명 첫 번째 줄 문구는 Cnet, Gizmodo 등의 유력 외신에서 소개되었다는 문구였는데, 이를 사진으로 알람해제 기능 소개 문구로 변경하였다. ‘자세한 설명’ 부분은 더 보기 버튼을 눌러야 나오는 부분이라 실험 전에는 사실 큰 기대를 하지 않았다. 하지만 결과는 +7.0% ~ +26.6% 였으며, 생각보다 많은 개선이 일어났다.
캡쳐화면
대상: 미국 가설: 변기 이미지를 세면대로 변경하면 다운로드가 늘 것이다
기존 스크린샷(좌), 세면대 사진을 등록한 새로운 스크린샷(우)
진행한 A/B 테스팅 중 재미있는 가설이라고 생각한다. 띵스플로우 이수지 대표가 변기 사진이 등록된 스크린샷을 보더니 뭔가 더러운 느낌이고, 특히 여자들은 저렇게 변기 커버를 올려두지 않는다며(생각지도 못했던 부분이다!) 세면대 사진으로 변경할 것을 추천해 주었다.
위 스크린샷은 스토어 첫 화면에 나오지 않고, 두 번째로 넘겨야 나오는 스크린샷이다. 그 때문에 단지 등록된 사진을 변경하는 것만으로 개선이 될 것으로 생각하지 못했는데, 결과는 +0.9% ~ +6.1% 였다.
그래서?
위처럼 여러 가설을 많은 국가에서 A/B 테스팅 해온 덕분에 알라미의 스토어 획득률은 50% 정도를 유지하고 있다. 이 말은 스토어 등록정보를 보는 사람 2명 중 1명은 꼭 알라미를 받는다는 뜻이다 .
2017년 7월의 스토어 획득률 (acquisition rate)
위 그림에서 비슷한 앱들의 획득률을 비교한 벤치마킹 결과를 볼 수 있다. 75 percentile이 34% 인데, 이를 보면 알라미는 나름 괜찮은 획득률(51.2%)을 유지하고 있다. 물론 CPI 등의 마케팅을 진행하여 획득률을 높일 수는 있겠지만, 알라미는 현재 어떠한 마케팅도 하고 있지 않다.
결국, 여러 가설을 세워 꾸준히 스토어 등록정보 A/B 테스팅을 하다 보면 스토어 획득률을 개선시킬 수 있으니 한 번쯤 해보는 것을 추천한다.
전환 문구 A/B 테스팅
진행했던 앱 내 문구 A/B 테스팅 중에서 예상치 못했던 결과가 나온 경우를 하나 소개하려 한다. 현재는 없어졌지만, 알라미 앱 내에서 아래와 같은 방식의 보상형 광고를 진행했었다. 주어진 추천앱(광고앱) 중에서 하나를 받으면 30일간 프로버전으로 업그레이드를 해주는 부분이었다.
추천앱을 설치하면 30일간 업그레이드 해주는 화면
여기서 사용자가 느끼는 보상은 ‘30일의 프로버전 사용’ 이다. 만약 보상이 늘어나면 어떻게 될까? 당연히 추천앱을 더 많이 받지 않을까? 이러한 가설을 기반으로 보상일 수 를 변경하는 A/B 테스팅을 진행했다. 30일, 60일, 100일의 보상일 수를 테스트 했으며, 보상이 커질 수록 전환률이 얼마나 늘어나는지 확인해보려 했다. 결과는 아래와 같았다.
30일 보상: 6% | 60일 보상: 14% | 100일 보상: 10%
보상이 가장 큰 100일의 전환율이 가장 높을 것이라는 예상은 보기 좋게 빗나갔다. 대체 왜? 라는 생각으로 사용자 인터뷰를 진행해보니 100일의 경우 보상이 너무 커 희소성이 60일에 비해 낮다고 느껴졌기 때문이었다 (쉽게 말하면 싼 게 비지떡 효과).
결국, 보상을 30일에서 60일로 변경하여 전환율을 1.5배 개선하였다 (물론 30일 보상을 받은 사용자가 60일 내에 광고앱을 추가로 설치하는 상황도 고려하였다). 이렇게 숫자 하나 바꿔 전환율을 1.5배 이상 개선하는 부분이 바로 A/B 테스팅의 매력이 아닐까 한다.
추가로 이야기하면, 추천앱 리스트가 5개인 것보다 3개인 것이 효율이 높았으며 (선택지가 많아지면 구매력이 떨어지는 선택의 역설), 단가가 가장 높은것을 첫 번째에 배치하고 ‘좋아요’ 배지를 다는 것으로도 효율을 높일 수 있었다.
주의할점
제한된 리소스
사실 작은 스타트업에서 A/B 테스팅을 자주 하기는 쉽지 않다. 리소스가 넘쳐나서 A/B 테스팅을 무한정 할 수 있으면 좋겠지만, 결국 리소스는 제한되어 있기 때문에 A/B 테스팅이 가져올 파급력을 고려해서 진행해야 한다.
단순하게 ‘버튼 색깔을 빨주노초파남보로 바꿔보자!’ 라거나, 팀 내부 의견이 맞지 않아서 ‘누가 맞는지 확인해 보자!’ 라는 심보로 A/B 테스팅을 하게 되면, 좋은 결과가 나오기 힘들다.
결국, 정말 될 법한 가설을 세우고 제한된 리소스내에서 해당 A/B 테스팅을 진행할 가치가 있는지에 대한 고민을 먼저 한다면 더욱 좋은 결과를 낼 수 있을 것이라고 생각된다 (사용자를 잘 이해하고 있다면 생각보다 가설이 잘 들어맞는다).
기간으로 비교한 A/B 테스트
첫째 주는 A옵션, 둘째 주는 B옵션을 넣어 A/B 테스트를 하면 어떨까? 외부 요인에 따라 잘못된 선택을 할 수 있다. 외부 요인에 의해 방문자의 성향은 시시각각 달라질 수 있기 때문에 기본적으로 A/B 테스팅은 같은 기간에 하는게 좋다.
예를 들어보자. 아래 그래프는 인도에서의 알라미 주간 스토어 획득 그래프를 나타낸다. 오른쪽 기간이 16%나 높은 획득률을 가지는데, 사실 왼쪽과 오른쪽 기간동안 아무 변화도 주지 않은 상태이다 (단순히 외부 요인의 영향으로 변화가 발생했다).
인도에서의 첫째 주 스토어 획득률(좌), 둘째 주 스토어 획득률(우)
이처럼 아무것도 하지 않아도 외부요인으로 인해 큰 차이가 날 수도 있다. 만약 이런 상황에서 기간으로 A/B 테스팅을 진행하면 어떻게 될까? 기존보다 안 좋은 옵션이 오른쪽 기간에 들어갔다면 오히려 기존보다 더 안 좋아지는 결정을 하게 될 수 있다.
적절한 모수
당연한 이야기지만 A/B 테스팅을 하려면 충분한 모수가 모여야 한다. 모수가 적으면 제대로된 결정을 내리기 힘들기 때문에, 아래와 같은 통계적 유의미도 계산기를 사용해 결과를 보는것도 도움이 된다.
통계적 유의미도 계산기
A/B 테스팅 사례를 보다 보면, 적은 노력으로 큰 개선을 이룰 수 있는 것처럼 보이기도 한다. 하지만 겪어보면 많은 테스트 중에 몇 개 겨우 건지는 경우가 대부분이고, 밖에서 들었던 것처럼 드라마틱한 개선은 잘 이루어지지 않는다.
알라미 A/B 테스팅 리스트 예시, 대부분 테스팅이 개선에 실패한다
결국, 리소스가 부족한 스타트업에서는 몇 퍼센트의 개선에 집착하는 것보다 사용자들이 이미 겪고 있는 불편함이나 개선점에 신경을 쓰는 것이 더 효과적일 수 있다. 따라서 위에서도 언급했지만, 무작정 A/B 테스팅을 하기보다는 좋은 가설을 세우고 A/B 테스팅의 파급력을 고려하여 진행하길 추천한다.