최근 수정 시각 : 2024-01-26 18:13:45

베이즈 정리

베이즈주의 인식론에서 넘어옴
통계학
Statistics
{{{#!wiki style="margin:0 -10px -5px; min-height:calc(1.5em + 5px); word-break: keep-all"
{{{#!folding [ 펼치기 · 접기 ]
{{{#!wiki style="margin:-5px -1px -11px"
<colbgcolor=#4d4d4d><colcolor=#fff> 수리통계학 기반 실해석학 (측도론) · 선형대수학 · 이산수학
확률론 사건 · 가능성 · 확률 변수 · 확률 분포 (표본 분포 · 정규 분포 · 이항 분포 · 푸아송 분포 · 카이제곱분포 · t분포 · Z분포 · F-분포 · 결합확률분포) · 확률밀도함수 · 확률질량함수 · 조건부확률 · 조건부기댓값 · 조건부분산 · 전체 확률의 법칙 · 베이즈 정리 · 도박사의 오류 · 도박꾼의 파산 · 몬티 홀 문제 · 뷔퐁의 바늘 · 마르코프 부등식 · 체비쇼프 부등식 · 큰 수의 법칙 (무한 원숭이 정리) · 중심극한정리 · 벤포드의 법칙
통계량 평균 (제곱평균제곱근 · 산술 평균 · 기하 평균 · 조화 평균 · 멱평균 · 대수 평균) · 기댓값 · 편차 (절대 편차 · 표준 편차) · 분산 (공분산) · 결정계수 · 변동계수 · 상관계수 · 대푯값 · 자유도
추론통계학 가설 · 변인 · 추정량 · 점추정 · 신뢰 구간 · 상관관계와 인과관계 · 실험통계학 · p-해킹 · 통계의 함정 · 그레인저 인과관계 · 신뢰도와 타당도
통계적 방법 회귀 분석 · 최소제곱법 · 분산 분석 · 주성분 분석 (요인 분석) · 시계열 분석 · 패널 분석 · 2SLS · 생존 분석 · GARCH · 비모수통계학 · 준모수통계학 · 기계학습 (군집 분석 · 분류 분석) · 위상 데이터분석 · 외삽법 · 메타 분석 · 모델링 (구조방정식)
기술통계학 ·
자료 시각화
도표 (그림그래프 · 막대그래프 · 선 그래프 · 원 그래프 · 상자 수염 그림 · 줄기와 잎 그림 · 산포도 · 산점도 · 히스토그램 · 도수분포표) · 그래프 왜곡 · 이상점 }}}}}}}}}

1. 개요2. 베이즈 정리의 두 가지 맥락
2.1. 역확률 문제2.2. 데이터를 이용한 사후 확률의 추정
3. 수학적인 일반화4. 활용
4.1. 베이즈 통계학 (베이지언 통계학)4.2. 인지과학에서의 베이즈 정리4.3. 베이즈주의 인식론
4.3.1. 더 읽어볼만한 글
5. 관련 문서

1. 개요


베이즈 정리(Bayes' theorem). 어떤 사건이 서로 배반하는 원인 둘에 의해 일어난다고 할 때 실제 사건이 일어났을 때 이것이 두 원인 중 하나일 확률을 구하는 정리를 베이즈의 정리라고 한다. 공식의 형태는 다음과 같다.
[math(P(B|A) = \dfrac{P(A|B)P(B)}{P(A)})][1]

결국 조건부 확률(사후 확률)을 구하는 것을 말하는데, 이는 어떤 사건이 만들어 놓은 상황에서, 그 사건이 일어난 후 앞으로 일어나게 될 다른 사건의 가능성을 구하는 것을 말한다. 즉, 기존 사건들의 확률(사전 확률)을 알고 있다면, 어떤 사건 이후의 각 원인들의 조건부 확률을 알 수 있다는 것이다. 하지만 기존 사건들의 확률을 알지 못한다면 베이즈 정리는 쓸모없는 것이 되는 한계가 있다. 대부분의 사회 통계는 전수조사가 불가능하기에 기존 사건들의 확률 역시 알 수 없는 것이어서 한 때 베이즈 정리는 관심 밖에 있었으나, 최근 빅 데이터를 통해 기존 사건들의 확률을 대략적으로 뽑아낼 수 있게 됨으로써(데이터가 쌓일수록 확률의 정확도는 올라간다.), 사회적 통계나 주식에서의 빅 데이터를 이용한 베이즈 정리 활용이 필수적인 것으로 되고 있다.

2. 베이즈 정리의 두 가지 맥락

2.1. 역확률 문제

베이즈 정리는 본래 역확률(inverse probability) 문제를 해결하기 위한 방법이었다. 즉, 조건부 확률 [math(\displaystyle P(B|A) )]를 알고 있을 때, 전제와 관심 사건의 관계가 정반대인 조건부 확률 [math(\displaystyle P(A|B) )]을 구하는 방법이었다.

예를 들어, 병 A를 앓고 있는지를 판정하는 양성판정 정확도(즉, 병 A가 걸린 사람이 실제로 테스트 결과 양성으로 나올 확률)가 90%인 검사기가 있고, 어떤 사람이 이 검사기로 검사를 시행해서 양성판정이 나왔다면, 이 사람이 90%의 확률로 병에 걸려 있다고 이야기할 수 있을까? 그렇지 않다. 왜냐하면 이 90%는 병에 걸린 것이 확실한 사람을 검사했을 때에 양성판정 확률이고(용어로는 "민감도"), 병에 확실히 안걸린 사람을 측정시 음성이라고 나올 확률은(용어로는 "특이도") 따로 분포하므로(심지어 이 검사기가 병에 안 걸린 사람을 병에 걸린 것으로 오판할 확률도 항상 존재하므로). 다시 말하자면, 검사가 알려주는 확률과 우리가 알고 싶은 확률은 조건부 확률의 의미에서 정반대이기 때문이다.
  • 검사의 양성판정 정확도 '90%'는 검사가 병을 가진 사람을 정확하게 포착할 확률, 즉 병을 가지고 있다는 전제 하에 검사 결과가 양성일 확률이 90%임을 의미한다.
  • 하지만 우리가 알고 싶은 것은 검사 결과가 양성이라는 전제 하에 병을 앓고 있을 확률이다. 이는 앞에서 말한 확률과는 그 의미가 전혀 다르다. 아래 표에서도 볼 수 있듯, 조건부 확률의 관점에서 보면 전제(조건)와 관심 사건의 관계가 정반대이기 때문에, 이런 식의 확률을 구해야 하는 문제를 역확률 문제라고 부른다.
전제 관심 사건 수학적 표현
검사의 정확도 병을 앓고 있다 검사 결과: 양성 P(검사 결과: 양성|병을 앓고 있다) = 0.90
우리의 관심사 검사 결과: 양성 병을 앓고 있다 P(병을 앓고 있다|검사 결과: 양성) = ....?

원래대로라면 검사의 정확도만을 가지고 우리의 관심사인 '(양성인 사람이) 병을 앓고 있을 확률'을 알 수는 없다. 하지만 우리가 검사 대상인 질병의 유병률을 알고 있다면, 베이즈 정리를 통해 역확률을 계산할 수 있다. 예를 들면 전세계 인구 중 1%정도의 사람들이 병 A를 앓는다고 알려져 있다고 가정하자. 그리고 음성판정 정확도(병 A가 걸리지 않은 사람이 실제로 테스트 결과 음성으로 나올 확률)도 양성판정 정확도와 마찬가지로 90%라고 가정하자 (실제로는 음성판정 정확도가 양성판정 정확도와 같을 필요는 없다). 그렇다면 검사 결과가 양성으로 나온 사람이 실제로 병 A를 앓고 있을 확률은 약 8.3%이다.

수식으로 정리하면 다음과 같다.
[math(\begin{aligned} P(병|양성)&=\frac{P(양성|병)P(병)}{P(양성)}\\
&=\frac{P(양성|병)P(병)}{P(양성|병)P(병)+P(양성|무병)P(무병)}\\
&=\frac{0.9\times 0.01}{0.9\times 0.01+(1-0.9)\times 0.99} \approx 8.3\% \end{aligned})]
첫번째 줄에서 두번째 줄로 넘어가는 과정은, [math(P(B)=P(B|A)P(A)+P(B|A^{\subset})P(A^{\subset}))], 즉 사건 B가 발생할 확률은 사건 A가 발생하고 사건 B가 발생할 확률과 사건 A가 발생하지 않고 사건 B가 발생할 확률의 합과 같다는 사실을 이용한 것이다. 또한 [math(P(양성|무병))] = 1 - [math(P(음성|무병))] 이다.

여기서 검사기의 양성판정 정확도가 90%임에도 불구하고 유병확률이 고작 8.3%밖에 되지 않는 이유는, 전체 인구 중에 병을 앓고 있는 사람이 1%밖에 되지 않기 때문이다. 즉, 병을 앓고 있지 않는 99% 인구 중에 병이 있다고 오진을 받은 경우가 검사기가 병을 앓는 사람을 제대로 진단한 경우를 압도해버리고 있는 것이다. 좀 더 상황을 극대화시켜 이 병이 80억 인류 중 단 한 명에만 걸리는 병이라고 가정한다면, 이 사람이 병을 앓고 있을 확률보단 검사기가 오진하였을 확률이 훨씬 높을 것이다. 그러므로 이 예제처럼 병을 앓는 사람의 비율이 낮은 경우에는 음성판정 정확도가 양성판정 정확도보다 훨씬 중요하다. 예를 들어 음성판정 정확도를 그대로 두고 양성판정 정확도를 90%에서 99%로 올린다고 해도 유병확률이 고작 9.1%가 되는 반면에, 양성 판정 정확도를 그대로 두고 음성판정 정확도를 90%에서 99%로 올리면 유병확률이 47.6%로 향상된다. 참고로 정반대의 경우, 즉 검사기가 음성판정을 내렸을 때 실제로 병에 걸리지 않았을 확률은 반대로 매우 높다 (양성판정 정확도와 음성판정 정확도가 모두 90%일때, 99.89%).

실제 질병검사 키트에서 (특히 발병률이 낮은 질병일수록) 병에 걸린 사람을 제대로 양성으로 표기하는 능력(민감도) 보다 실제 안걸린 사람을 음성으로 표기하는 능력(특이도)가 훨씬 중요한 경우들이 많다. 키트에서 양성이 떴을 때에 실제 병에 걸렸을 확률 즉 정밀도 (Precision)를 기준으로 본다면, 민감도를 1% 올리는 것보다 특이도를 1% 높이는 것이 훨씬 결과면에서 효과적이다. 분야에 따라 혹칭 "1종오류 (알파 오류)"라고 칭하는 "질병에 안 걸렸는데 키트에 양성이 떠버린 오류", 그리고, "2종오류 (베타 오류)"로써 "질병에 걸렸는데도 키트에 음성이 떠버린 오류", 둘 중에서 더 중요한 쪽 검침률을 올리는 쪽으로 노력하게 된다. 수많은 인구가 대중적으로 사용할 감염병 진단 키트의 경우 1종오류 방지가 더 중요하므로, 특이도에 치중하여 정밀도를 높이게 되고 따라서 사용자들은 민감도의 약점을 키트 반복 사용으로 극복하게 되는 편이다. (화재경보기라면 반대로 2종오류 방지가 중요, 즉, 화재가 났는데도 경보가 안울리는 오류가 훨씬 치명적임을 생각해보자.)
질병 검사 키트의 민감도와 특이도 수치는 서로 완전히 다르게 구성되며, 각 수치를 향상하는 방법이 서로 매우 다르다. 발달된 키트는 보통 양쪽 각기 다 95%를 훨씬 넘게 되지만, 병에 걸린 사람을 제대로 양성으로 표기하는 민감도가 95% 이상이라면 민감도를 1% 늘리는 것보다 안걸린 사람을 음성으로 표기하는 특이도를 1% 늘리는 것이 여러가지 지표 수치를 훨씬 크게 개선해준다.

2.2. 데이터를 이용한 사후 확률의 추정

하지만 베이즈 정리를 이전의 경험과 현재의 증거를 토대로 어떤 사건의 확률을 추론하는 알고리즘으로 보고 관심을 가지는 사람들도 있었다. 이 때는 어떤 사건이 일어날 확률에 대한 임의의 가정 [math(\displaystyle P(A) )]에 실제로 발견된 자료나 증거 [math(\displaystyle B )]를 반영해서, 자료로 미루어보아 어떤 사건이 일어날 확률 [math(\displaystyle P(A|B) )]을 구하는 것이 관심의 대상이 된다. 대표적으로 나이브 베이지안 알고리즘이 있다.

앞의 진단검사 문제를 '어떤 사람이 병 A에 걸렸을 확률을 계산하는 문제'로 조금 달리 접근해 보자.
1. 처음에는 어떤 사람이 병 A에 걸려있을 확률에 대해 아는 것이 없어, 전 세계 인구 일반이 해당 질병에 걸릴 확률인 1%의 유병률을 가정했다.
2. 그런데 정확도가 90%인 검사를 받았더니 양성 판정을 받았다.
3. 이 사람이 검사에서 양성 판정을 받았다는 새로운 사실을 토대로 이 사람이 실제로 병에 걸려있을 확률을 알 수 있지 않을까?

이 문제에서 베이즈 정리가 알려주는 것은, 만약 우리가 '어떤 사건 A가 일어났다고 가정할 때 B라는 자료를 얻게 될 확률'에 대한 정보만 알고 있다면, 자료에 근거해서 어떤 사건이 일어날 확률을 새로 계산할 수 있다는 것이다. 위의 사례에서는 검사의 정확도가 '어떤 사건(병 I에 걸림)이 일어났다고 가정할 때 자료(양성 판정을 받음)를 얻게 될 확률'에 대한 정보를 제공해주기 때문에 이를 이용해 검사 결과를 토대로 그 사람이 병에 걸렸을 확률을 새로 계산할 수 있다.

이러한 관점에서 베이즈 정리에 접근할 때는 다음과 같은 몇 가지 용어들이 등장한다.
(사건 A의) 사후 확률 가능도 × (사건 A의) 사전 확률
수학적 표현 P(A|B) P(B|A) P(A)
예(진단검사) P(병을 앓고 있다|양성 판정) P(양성 판정|병을 앓고 있다) P(병을 앓고 있다)
  • 새로운 자료가 없는 상태에서 어떤 사건이 일어날 확률에 대한 가정이 필요한데, 이를 사전 확률(prior probability)이라 한다.
  • 사건이 일어났다는 가정 하에서 새로이 가지게 된 자료가 관측될 확률을 가능도(likelihood)[2]라고 한다.
  • 사전확률과 가능도를 이용해서 새롭게 계산한, '(새로운 자료로 미루어보아 새롭게 판단한) 어떤 사건이 일어날 확률'을 사후 확률(posterior probability)이라고 한다.
  • 베이즈 정리의 분모에 해당하는 부분은 가능도를 구할 때 조건으로 걸린 사건(위의 예의 경우, (실제 병의 유무와는 상관 없이) '양성 판정이 나올 확률')의 확률이다. 기능적으로는 사후 확률이 확률의 정의(0 이상 1 이하여야 한다)를 충족시키도록 사전확률과 가능도의 곱을 보정해주는 역할을 한다. 위와 같은 예에서는 쉽게 계산할 수 있고 엄밀하게 사후확률을 구하려면 반드시 필요한 부분이지만, 실제로 생각보다 계산이 까다로울 경우 등식을 비례 관계로 바꾸고 생략할 수도 있다.

토머스 베이즈는 확률에 기초한 사고도 합리적이라고 주장했다. 베이즈 정리에는 우리가 우주에 대해 점점 더 많은 정보를 모을수록 우주의 진리에 대해 한 걸음 더 가까이 다가갈 수 있다는 그의 수학적, 철학적 관점이 반영되어 있다고 보아도 좋다.

참고로 어떤 사건에 대한 사전확률이 0이나 1이라면 베이즈 정리에 따라 사후확률도 0이나 1로 고정되게 된다. 따라서 사전확률이 0과 1 이외의 값이 되어야만 반증이 존재할 시 이를 받아들여서 사후확률을 업데이트하는 것이 가능하다. 이를 다룬 법칙이 크롬웰의 법칙이다.

3. 수학적인 일반화

개요에서 설명한 식은 사건이 두 종류(A, B)뿐인 고등학교 확률 문제에도 나올 정도로 간단한 경우이다. 예를 들면, 주머니 속에 당첨제비가 3장, 꽝이 7장 들어있을 때, 갑이 1장을 뽑고 확인은 하지 않고 자기가 갖고 있는다. 그다음에 을이 1장을 뽑았는데 당첨이었다. 이때 갑도 당첨이었을 확률을 구하는 것인데, 갑이 당첨인 사건을 A라 하고 을이 당첨인 사건을 B라 한 다음 위 공식에 따라 계산하면 확률은 [math(\displaystyle {2\over 9} )] 라는 것을 알 수 있다.

사건을 n개로 확장시켰을 때의 조금 더 일반적인 베이즈 정리는 다음과 같다.
n개의 사건 [math( A_1, A_2, ... , A_n )] 이 표본공간 [math( S )] 를 분할할 때, 공사건이 아닌 사건 [math( B )] 에 대하여 [math( P(B) )] 는 확률의 덧셈정리에 의하여 [math( P(B)=P(B\cap A_1)+P(B\cap A_2)+...+P(B\cap A_n) )] 를 만족하고, 이는 확률의 곱셈정리에 의하여 [math( P(B)=P(A_1)P(B|A_1)+P(A_2)P(B|A_2)+...+P(A_n)P(B|A_n) )] 와 같이 나타낼 수 있다. 이런 상황에서 사건 [math( B )] 가 일어나는 것을 전제로 한 사건 [math( A_i )] 의 조건부 확률은 다음과 같이 구할 수 있다.

[math(\displaystyle P(A_i|B)={P(B\cap A_i)\over P(B)}={P(A_i)P(B|A_i)\over {P(A_1)P(B|A_1)+P(A_2)P(B|A_2)+...+P(A_n)P(B|A_n)}} )]

4. 활용

4.1. 베이즈 통계학 (베이지언 통계학)

베이즈 통계학은 쉽게 말해 사후 확률을 추론하는 방식인 베이즈 정리를 이용해 통계학의 문제에 접근하는 흐름을 일컫는다. 자신이 가지고 있던 기존의 믿음(가설, 모형, ...)에 자료를 반영해서 더 새로운 것으로 만든다는 아이디어는 심플해 보이지만, 베이즈 정리는 확률이나 추정에 대한 관점이 기존의 통계학과 많이 달라서 이를 비판적으로 바라보는 사람들도 많았다. 하지만 이보다도 치명적인 장애물은, 사후분포를 사람의 손으로는 계산하기 쉽지 않은 케이스들이 많다는 것이었다.

만약 사전분포와 가능도가 특정한 짝을 이루고 있다면, 이로부터 추출되는 사후분포는 사전분포와 동일한 형태를 가지는데, 이러한 사전분포를 공액사전분포 또는 켤레사전분포(conjugate prior)라 한다. 예를 들어, 사전분포와 가능도가 모두 정규분포를 따른다면 사후분포는 사전분포와 동일한 정규분포가 된다. 또, 사전분포와 가능도가 각각 베타분포와 이항분포(또는 이것의 특수한 사례로서의 베르누이 분포)를 따른다면, 사후분포는 사전분포와 동일한 베타분포가 된다. 이러한 분포들 사이의 관계는 베이즈 통계학을 본격적으로 배우게 되면 가장 먼저 접하게 되는 내용이다. 이러한 경우에는 정해진 업데이트 공식을 계산하면 쉽게 사후분포를 유도할 수 있기 때문에, 베이즈 통계학의 아이디어가 발견된 이후로 줄곧 사용되어 왔다.

하지만 현실에서 발생하는 데이터들은 항상 이렇게 사전분포와 가능도가 잘 매칭되지 않는 경우가 대부분이라는 것이 문제였다. 이런 경우에는 사람의 손으로 직접 사후분포를 계산하기에는 어려움이 너무 커서, 베이즈 통계학을 현실에서 활용하기에 많은 무리가 따랐다. 하지만 최근 컴퓨터의 계산 능력이 급증하고, 더불어 사후 확률의 계산을 몬테 카를로 방법 혹은 변분법을 이용한 Variational inference같은 기법으로 해낼 수 있다는 것이 밝혀지면서, 베이즈주의의 관점에서 데이터를 분석하는 것이 훨씬 쉽게 되었다.

4.2. 인지과학에서의 베이즈 정리

심리학, 신경과학, 인지과학 등의 분야에서는 베이즈 정리가 바로 인간이 생각하고 판단하는 근본적인 방식일 수도 있겠다고 보는 이론적인 흐름을 낳기도 했다. 이러한 입장은 인지과학 연구자들 사이에서도 의견이 분분한데, 베이즈주의의 관점에서 심리 과정을 연구하는 학자들은 인간의 뇌와 마음에서 일어나는 과정이 정확히 베이즈 정리를 따른다고 가정하기 때문이다. 단순히 인간이 환경에 대해 학습하고 자신의 믿음을 업데이트한다는 주장과, 그 과정이 정확히 베이즈 정리를 따른다는 주장 사이에는 큰 차이가 있다. 또한 베이즈주의 인지과학의 입장은 단순히 인지과학의 여러 분야에서 데이터를 분석하기 위해 베이즈 통계학을 사용하는 것과도 차이가 있다.

이러한 관점에 관심이 있는 심리학자와 신경과학자들은 신경세포의 정보처리 과정이나 행동이 정확히 베이즈 정리에 의해 설명되며 베이즈적인 관점에서 '합리적'임을 모델링을 통해 설명한다(심리학에서의 예, 신경과학에서의 예).

4.3. 베이즈주의 인식론

과학철학인식론에서의 학파 혹은 연구 분야. 그 핵심 주장을 아주 거칠게 표현하면 다음과 같다:
  • 인식론적·과학적 합리성이란 확률론의 콜모고로프 공리를 온전히 따르는 것, 그 이상도 이하도 아니다.
    • 베이즈 정리는 확률론의 정리이므로 준수되어야 한다. 요컨대 합리적 믿음 혹은 과학적 가설은 오직 베이즈 정리에 의거하여 (시간의 흐름에 따라) 갱신되어야 한다.

이는 인식론에서의 '인식적 정당화', 과학철학에서의 '입증' 같은 개념들이 베이즈 정리를 비롯한 확률론적 공리 및 정리들을 통해 분석될 수 있음을 함축한다. 물론 여러 문제들이 산재하니만큼 관련 연구들은 현재 진행형이다.

관련된 문제 및 입장들로는 다음과 같은 사례들이 있다:
  • 주관주의 확률론: 확률의 본성에 관한 입장 가운데 하나로, 확률이란 믿음의 정도를 뜻한다는 입장. 베이즈주의 인식론의 기초가 된다.
  • 믿음의 정도(degree of belief): 베이즈주의 인식론의 핵심 개념이며, "신념도"라고도 번역된다. 실제 심리적 현상으로서의 '믿음'이 이산적인 게 아니라 이처럼 연속적인 모형에 부합하는지 여부를 따지는건 심리철학의 문제 중 하나다.
  • 합리적 결정 이론: 게임 이론과 밀접한 이론. 베이즈주의 인식론이 "무엇을 믿어야 하는가?"를 알려준다면, 합리적 결정 이론에서는 이를 바탕으로 "어떻게 행동해야하는가?"에 대한 답을 준다고 거칠게 설명할 수 있다.

이와 같은 사례들을 비롯해서 과학철학의 여러 부분에서 베이즈주의가 상당히 위세를 떨치고 있는 것도 사실이지만, 그럼에도 불구하고 베이즈주의가 뛰어넘기 어려워 보이는 여러 가지 난관에 봉착해 있는 것도 사실이다. 예를 들어 확률이란 믿음의 정도를 뜻한다는 입장에 따르면, 이 믿음의 정도라는 것을 어떻게 보편적으로 측정할 수 있느냐는 매우 어려운 물음이기 때문이다. 이 믿음의 정도라는 것을 정착시키는 것이 베이즈 정리의 핵심인데 어떻게 되건 명쾌하게 떨어지지 않고 흐지부지한 부분이 남는다.

4.3.1. 더 읽어볼만한 글

5. 관련 문서



[1] 여기서, [math(P(A|B)P(B)\equiv P(A∩B))][2] '우도'라고 표현하기도 한다