몇%
myutper
통계 기초중급6분 읽기

베이즈 정리 쉽게 이해하기

베이즈 정리를 의료 검사, 스팸 필터 등 실생활 예시로 쉽게 설명합니다. 조건부 확률의 핵심 개념을 직관적으로 이해하세요.

몇퍼 팀·
공유

베이즈 정리, 왜 중요할까?

베이즈 정리는 "새로운 증거를 얻었을 때, 기존 믿음을 어떻게 업데이트해야 하는가"를 알려주는 수학 도구입니다. 일상에서 우리는 끊임없이 베이즈적 사고를 합니다. 예를 들어, 하늘에 먹구름이 끼면(새로운 증거) 비 올 확률에 대한 믿음이 올라갑니다. 수식으로 쓰면 P(A|B) = P(B|A) × P(A) / P(B) 입니다. 여기서 P(A)는 사전 확률(증거를 보기 전의 믿음), P(A|B)는 사후 확률(증거를 본 후의 믿음), P(B|A)는 우도(가설이 참일 때 증거가 관찰될 확률)입니다. 복잡해 보이지만 실제 예시를 보면 직관적으로 이해할 수 있습니다.

의료 검사의 위양성 문제

베이즈 정리가 가장 극적으로 드러나는 예시가 의료 검사입니다. 어떤 질병의 유병률이 0.1%(1,000명 중 1명), 검사의 정확도가 99%(민감도 99%, 특이도 99%)라고 합시다. 검사 결과 양성이 나왔을 때, 실제로 그 질병에 걸렸을 확률은 얼마일까요? 직관적으로는 "99% 정확한 검사니까 99%"라고 생각하기 쉽지만, 정답은 약 9.0%입니다. 베이즈 정리로 계산하면: P(질병|양성) = (0.99 × 0.001) / (0.99 × 0.001 + 0.01 × 0.999) = 0.00099 / 0.01098 ≈ 0.090. 10,000명을 검사하면 실제 환자 10명 중 9.9명이 양성, 건강한 9,990명 중 99.9명이 위양성이 나와서, 양성 판정자 약 110명 중 실제 환자는 10명뿐인 것입니다.

스팸 필터의 베이즈 추론

이메일 스팸 필터도 베이즈 정리를 활용합니다. 특정 단어(예: "무료", "당첨")가 포함된 메일이 스팸일 확률을 계산하는 것입니다. 전체 메일 중 스팸 비율이 30%이고, 스팸 메일에 "무료"가 포함될 확률이 80%, 정상 메일에 "무료"가 포함될 확률이 5%라면? P(스팸|"무료") = (0.80 × 0.30) / (0.80 × 0.30 + 0.05 × 0.70) = 0.24 / 0.275 ≈ 87.3%. "무료"라는 단어 하나만으로 스팸 확률이 30%에서 87.3%로 올라갑니다. 실제 스팸 필터는 수백 개의 단어에 대해 이 계산을 연쇄적으로 적용하여 매우 높은 정확도를 달성합니다. 이것이 나이브 베이즈 분류기(Naive Bayes Classifier)의 원리입니다.

기저율 무시의 함정

베이즈 정리에서 가장 중요한 교훈은 "기저율(base rate)을 무시하면 안 된다"는 것입니다. 기저율이란 사전 확률, 즉 증거 없이도 알고 있는 기본 확률입니다. 위의 의료 검사 예시에서 유병률 0.1%가 기저율인데, 이를 무시하면 99% 정확도를 곧이곧대로 믿게 됩니다. 일상에서 기저율 무시의 예: "이 사업의 성공률이 높다"는 전문가 의견(증거)만 보고 투자하면서, 스타트업의 기저 실패율(약 90%)을 무시하는 것. "범죄자의 80%가 이런 특징을 가진다"는 통계만 보고, 그 특징을 가진 사람 중 범죄자 비율(기저율)을 고려하지 않는 것. 베이즈 정리는 이런 직관의 함정에서 우리를 구해줍니다.

자주 묻는 질문

다른 통계 기초 가이드