A/B 테스트란?
A/B 테스트는 두 가지 버전(A와 B)을 무작위로 사용자에게 보여주고, 어느 쪽이 더 나은 성과를 내는지 통계적으로 판단하는 실험 방법입니다. 웹사이트의 버튼 색상, 랜딩 페이지 문구, 이메일 제목 등 거의 모든 요소를 테스트할 수 있습니다.
핵심 원칙은 "한 번에 하나의 변수만 바꾼다"입니다. 버튼 색상과 문구를 동시에 바꾸면 어떤 변화가 효과를 낸 건지 알 수 없습니다. 또한 사용자를 무작위로 배분해야(랜덤 할당) 선택 편향을 제거할 수 있습니다. 예를 들어 A를 모바일, B를 PC 사용자에게 보여주면 기기 차이가 결과를 왜곡합니다.
샘플 사이즈는 얼마나 필요할까?
필요한 샘플 크기는 세 가지 요소에 의해 결정됩니다: (1) 기존 전환율(Baseline), (2) 감지하고 싶은 최소 변화량(MDE: Minimum Detectable Effect), (3) 원하는 통계적 신뢰도(보통 95%)와 검정력(보통 80%).
예를 들어 기존 전환율이 5%이고, 1%p 이상의 변화(5%→6%)를 감지하고 싶다면, 각 그룹당 약 3,623명이 필요합니다. 전환율이 2%이고 0.5%p 변화를 감지하려면 약 6,146명이 필요합니다. 변화량이 작을수록, 기존 전환율이 낮을수록 더 많은 샘플이 필요합니다. 몇퍼의 샘플 사이즈 계산기로 정확한 숫자를 구할 수 있습니다.
통계적 유의성 판단하기
A/B 테스트 결과가 "우연이 아닌 실제 차이인지" 판단하는 것이 통계적 유의성 검정입니다. 일반적으로 p값(p-value)이 0.05 미만이면 "통계적으로 유의하다"고 판단합니다. 이는 "이 결과가 우연으로 발생할 확률이 5% 미만"이라는 뜻입니다.
주의사항: (1) p값이 0.05라고 "95% 확률로 B가 낫다"는 뜻이 아닙니다. p값은 "A와 B가 같다고 가정했을 때 이 정도 차이가 관측될 확률"입니다. (2) 테스트 도중에 결과를 확인하고 유의하면 일찍 중단하는 것("peeking")은 위양성 확률을 높입니다. 미리 정한 샘플 크기에 도달한 후 판단하세요. (3) 통계적 유의성과 실무적 유의성은 다릅니다. 전환율 0.01%p 차이가 통계적으로 유의해도, 비즈니스적으로는 무의미할 수 있습니다.
흔한 실수와 해결법
실수 1: 테스트 기간이 너무 짧음. 주말과 평일의 사용자 행동이 다르므로 최소 1~2주(풀 비즈니스 사이클) 이상 운영해야 합니다. 실수 2: 여러 지표를 동시에 확인하고 유의한 것만 보고. 10개 지표를 동시에 보면 우연히 1개는 유의하게 나올 수 있습니다(다중 비교 문제). 주요 지표(Primary Metric)를 사전에 1개 정하세요.
실수 3: 트래픽이 적은데 작은 차이를 감지하려 함. 일 방문자 100명인 사이트에서 1%p 전환율 차이를 감지하려면 약 72일이 걸립니다. 현실적인 MDE를 설정하세요. 실수 4: 외부 요인 무시. 시즌 이벤트, 마케팅 캠페인 등 외부 요인이 결과를 왜곡할 수 있습니다. A/B 그룹이 동일 기간에 동일 조건을 경험하도록 설계하세요.
실전 A/B 테스트 워크플로
1단계 - 가설 수립: "CTA 버튼을 초록색에서 빨간색으로 바꾸면 전환율이 10% 이상 올라갈 것이다." 2단계 - 샘플 사이즈 계산: 현재 전환율 3%, MDE 10%(상대적), 신뢰도 95%, 검정력 80% → 각 그룹 약 14,751명 필요. 3단계 - 테스트 실행: 사용자를 무작위로 A/B 그룹에 배분하고 최소 2주 운영.
4단계 - 결과 분석: 데이터가 충분히 모이면 전환율 차이와 p값을 확인. 5단계 - 의사결정: 유의하면 B안 적용, 유의하지 않으면 A안 유지 또는 새로운 가설로 재실험. 중요한 것은 "실패한 테스트도 가치 있다"는 점입니다. 효과가 없다는 것을 증명한 것 자체가 자원 낭비를 막아줍니다.