A/B 테스트와 다변량 테스트(MVT)의 차이는?

A/B 테스트는 한 번에 하나의 변수를 테스트하고, 다변량 테스트(MVT)는 여러 변수의 조합을 동시에 테스트합니다. MVT는 변수 간 상호작용 효과를 발견할 수 있지만, 훨씬 더 많은 트래픽이 필요합니다. 트래픽이 충분하지 않다면 A/B 테스트가 더 실용적입니다.

전환율이 아닌 매출 같은 연속형 지표도 테스트할 수 있나요?

네, 가능합니다. 다만 전환율(이항 분포)보다 매출(연속 분포)은 분산이 크기 때문에 더 많은 샘플이 필요합니다. t-검정 또는 Mann-Whitney U 검정을 사용하며, 극단적 이상값(outlier)이 결과를 왜곡할 수 있으므로 사전에 윈저화(winsorizing) 처리를 고려하세요.

신뢰구간 95%면 5%는 틀릴 수 있다는 건가요?

네, 맞습니다. 95% 신뢰도는 "같은 테스트를 100번 반복하면 약 5번은 실제로 차이가 없는데 있다고 결론(위양성)"낼 수 있다는 뜻입니다. 더 높은 확실성이 필요하면 99% 신뢰도를 사용할 수 있지만, 필요한 샘플 크기가 약 1.7배 늘어납니다.

A/B 테스트 완벽 가이드 | 몇퍼

A/B 테스트란?

A/B 테스트는 두 가지 버전(A와 B)을 무작위로 사용자에게 보여주고, 어느 쪽이 더 나은 성과를 내는지 통계적으로 판단하는 실험 방법입니다. 웹사이트의 버튼 색상, 랜딩 페이지 문구, 이메일 제목 등 거의 모든 요소를 테스트할 수 있습니다. 핵심 원칙은 "한 번에 하나의 변수만 바꾼다"입니다. 버튼 색상과 문구를 동시에 바꾸면 어떤 변화가 효과를 낸 건지 알 수 없습니다. 또한 사용자를 무작위로 배분해야(랜덤 할당) 선택 편향을 제거할 수 있습니다. 예를 들어 A를 모바일, B를 PC 사용자에게 보여주면 기기 차이가 결과를 왜곡합니다.

샘플 사이즈는 얼마나 필요할까?

필요한 샘플 크기는 세 가지 요소에 의해 결정됩니다: (1) 기존 전환율(Baseline), (2) 감지하고 싶은 최소 변화량(MDE: Minimum Detectable Effect), (3) 원하는 통계적 신뢰도(보통 95%)와 검정력(보통 80%). 예를 들어 기존 전환율이 5%이고, 1%p 이상의 변화(5%→6%)를 감지하고 싶다면, 각 그룹당 약 3,623명이 필요합니다. 전환율이 2%이고 0.5%p 변화를 감지하려면 약 6,146명이 필요합니다. 변화량이 작을수록, 기존 전환율이 낮을수록 더 많은 샘플이 필요합니다. 몇퍼의 샘플 사이즈 계산기로 정확한 숫자를 구할 수 있습니다.

통계적 유의성 판단하기

A/B 테스트 결과가 "우연이 아닌 실제 차이인지" 판단하는 것이 통계적 유의성 검정입니다. 일반적으로 p값(p-value)이 0.05 미만이면 "통계적으로 유의하다"고 판단합니다. 이는 "이 결과가 우연으로 발생할 확률이 5% 미만"이라는 뜻입니다. 주의사항: (1) p값이 0.05라고 "95% 확률로 B가 낫다"는 뜻이 아닙니다. p값은 "A와 B가 같다고 가정했을 때 이 정도 차이가 관측될 확률"입니다. (2) 테스트 도중에 결과를 확인하고 유의하면 일찍 중단하는 것("peeking")은 위양성 확률을 높입니다. 미리 정한 샘플 크기에 도달한 후 판단하세요. (3) 통계적 유의성과 실무적 유의성은 다릅니다. 전환율 0.01%p 차이가 통계적으로 유의해도, 비즈니스적으로는 무의미할 수 있습니다.

흔한 실수와 해결법

실수 1: 테스트 기간이 너무 짧음. 주말과 평일의 사용자 행동이 다르므로 최소 1~2주(풀 비즈니스 사이클) 이상 운영해야 합니다. 실수 2: 여러 지표를 동시에 확인하고 유의한 것만 보고. 10개 지표를 동시에 보면 우연히 1개는 유의하게 나올 수 있습니다(다중 비교 문제). 주요 지표(Primary Metric)를 사전에 1개 정하세요. 실수 3: 트래픽이 적은데 작은 차이를 감지하려 함. 일 방문자 100명인 사이트에서 1%p 전환율 차이를 감지하려면 약 72일이 걸립니다. 현실적인 MDE를 설정하세요. 실수 4: 외부 요인 무시. 시즌 이벤트, 마케팅 캠페인 등 외부 요인이 결과를 왜곡할 수 있습니다. A/B 그룹이 동일 기간에 동일 조건을 경험하도록 설계하세요.

실전 A/B 테스트 워크플로

1단계 - 가설 수립: "CTA 버튼을 초록색에서 빨간색으로 바꾸면 전환율이 10% 이상 올라갈 것이다." 2단계 - 샘플 사이즈 계산: 현재 전환율 3%, MDE 10%(상대적), 신뢰도 95%, 검정력 80% → 각 그룹 약 14,751명 필요. 3단계 - 테스트 실행: 사용자를 무작위로 A/B 그룹에 배분하고 최소 2주 운영. 4단계 - 결과 분석: 데이터가 충분히 모이면 전환율 차이와 p값을 확인. 5단계 - 의사결정: 유의하면 B안 적용, 유의하지 않으면 A안 유지 또는 새로운 가설로 재실험. 중요한 것은 "실패한 테스트도 가치 있다"는 점입니다. 효과가 없다는 것을 증명한 것 자체가 자원 낭비를 막아줍니다.

A/B 테스트 완벽 가이드

목차

A/B 테스트란?

샘플 사이즈는 얼마나 필요할까?

통계적 유의성 판단하기

흔한 실수와 해결법

실전 A/B 테스트 워크플로

자주 묻는 질문

관련 계산기

다른 직장인 팁 가이드

2026년 연봉 실수령액 총정리

퇴직금 계산 완벽 가이드