확률의 곱하기 정리 (조건부 확률, 독립)
베이즈 정리에 대해서 살펴보기 전에, 조건부확률과 독립에 대해서 먼저 이야기해볼까 합니다.
사상 A와 사상 B가 서로 독립 일때,
\(P(A \cap B) = P(A)P(B)\)
이고,
조건부확률로 표현한 사상 A와 사상 B가 동시에 만족하는 확률은
\(P(A \cap B) = P(B)P(A|B)\)
로 표현될 수 있습니다.
먼저, 두 개의 사상을 넘어서, 여러개의 사상을 동시에 만족하는 경우의 확률로
일반화를 해봅시다.
\(P(A_{1} \cap A_{2} \cap A_{3} \cap ... \cap A_{n})\)
에서
\(A_{1} \cap A_{2} \cap A_{3} \cap ... \cap A_{n-1}\)
을 B라고 치환하면,
\(\begin{aligned} P(A_{1} \cap A_{2} \cap A_{3} \cap ... \cap A_{n}) &= P(B \cap A_{n}) \\
&= P(B)P(A_{n}|B) \\
&= P(A_{1} \cap A_{2} \cap ... \cap A_{n-1})P(A_{n}|A_{1} \cap A_{2} \cap ... \cap A_{n-1}) \\
이를 \space 반복하면, \\
&= P(A_{1})P(A_{2}|A_{1})P(A_{3}|A_{1} \cap A_{2})...P(A_{n}|A_{1} \cap A_{2} \cap ... \cap A_{n-1})
\end{aligned}\)
위의 식처럼 표현할 수 있습니다. 이를, 확률의 승법 정리 (곱하기 정리)라고 합니다.
위 식에, 각각의 사상이 독립인 경우에는
\(P(A_{1} \cap A_{2} \cap A_{3} \cap ... \cap A_{n}) = P(A_{1})P(A_{2})P(A_{3})...P(A_{n})\)
이 되게 됩니다.
\(P(A_{3}|A_{1} \cap A_{2})\)
를 예로 다른 경우를 생각해봅시다.
만약,
\(A_{3}\)
은
\(A_{1}\)
과
\(A_{2}\)
에 대해 각각 독립인데,
\(A_{1}\)
과
\(A_{2}\)
는 서로 간에 독립이 아니라면?
\(\begin{aligned}
P(A_{3}|A_{1} \cap A_{2}) &= \frac{P(A_{1} \cap A_{2} \cap A_{3})}{P(A_{1} \cap A_{2})} = \frac{P(A_{1} \cap A_{2})P(A_{3})}{P(A_{1} \cap A_{2})} = P(A_{3})
\end{aligned}\)
각 사상이 독립인 경우와 달라지는게 없습니다.
만약,
\(A_{3}\)
은
\(A_{2}\)
에 대해 독립인데,
\(A_{1}\)
에 대해서는 독립이 아니고,
\(A_{1}\)
와
\(A_{2}\)
는 서로 간에 독립이 맞다면?
\(\begin{aligned}
P(A_{3}|A_{1} \cap A_{2}) &= \frac{P(A_{1} \cap A_{2} \cap A_{3})}{P(A_{1} \cap A_{2})} = \frac{P(A_{1} \cap A_{3})P(A_{2})}{P(A_{1})P(A_{2})} = P(A_{3}|A_{1})
\end{aligned}\)
이 됩니다.
이것으로 조건으로 주어진 사상과, 우리가 알고자 하는 사상이 독립이 아닌 경우에는, 조건인 사상은 조건 그대로 남아 있는 것을 알 수 있습니다.
베이즈 정리
서론이 길었으니 이제 베이즈 정리에 대해 이야기 해볼까 합니다.
아래의 조건부확률 식 두개를 살펴보면 좌항이 동일한 것을 알 수 있습니다.
\(P(A \cap B) = P(A)P(B|A)\)
\(P(A \cap B) = P(B)P(A|B)\)
이를 통해, 아래의 식이 자연스럽게 나오게 되는데, 이것이 바로 베이즈정리라 불리는 식입니다.
\(P(A)P(B|A) = P(B)P(A|B)\)
그렇다면, 베이즈 정리가 왜 그렇게 유용한 것일까요?
그것은 바로, 베이즈 정리가
\(P(A|B)\)
와
\(P(B|A)\)
간의 관계를 나타내고 있기 때문입니다.
좀 더 생각해보기 위해서 아래의 문제를 한 번 풀어보세요~!
그림과 같이 앞에 양복을 차려입고 훤칠한?! 젊은 남자가 책상 앞에 앉아 있습니다. 사진 속 인물에 적절한 선택지를 골라보세요~!
- 남자
- 비즈니스맨
- 아침에 머리를 손질하고 온 비즈니스맨
몇 번을 고르셨나요? 1번? 혹은 3번? 2번?
많은 사람들이 1번 또는 3번을 고르게 됩니다.
먼저, 1번을 고른 사람의 생각을 확률적인 관점에서 접근해봅시다.
남자인 경우의 사상을 A, 비즈니스 전문 일(?)을 하는 사상을 B, 아침에 머리 손질을 할 사상을 C라고 임의로 정해봅시다.
그럼,
1번의 경우는
\(A\)
,
2번의 경우는
\(A \cap B\)
,
3번의 경우는
\(A \cap B \cap C\)
가 됩니다.
교집합을 할 수록 집합의 원소의 수가 아무래도 줄어들테니, 아마도 가장 많은 원소를 가졌을 1번 A의 확률(가중치)이 가장 클 것입니다.
그래서 1번을 골랐다면, 적절한 설명이 될 것입니다.
그렇다면, 3번을 고른 사람들의 생각을 확률적으로 생각해봅시다.
왜 가장 적은 원소를 가졌을 사상, 3번을 골랐을까요?
이를 이해하기 위해서,
조건부확률을 통해 다시 1번을 선택한 사람의 경우를 생각해봅시다.
앞 선 문제의 사진을 D라는 사상이라고 해봅시다.
그렇다면 1번은
\(P(A|D)\)
즉, 사진(조건)이 주어졌을 때, 가장 높은 확률을 지닌 선택지를
선택했습니다.
반면, 3번을 선택한 사람들은, 결론부터 말해서
\(P(D|A \cap B \cap C)\)
가 가장 클 것으로 보이기 때문에, 3번을 선택하였습니다.
다시 말해, 선택지에 있는 조건이 만족될 때, 사진이 나오는 확률이 최대가 될 만한 것을 골랐다는 것입니다.
이를 수식으로 살펴보면,
\(P(D|선택지) = \frac{P(D \cap 선택지)}{P(선택지)}\)
분자의 항은 판단하기가 어렵기 때문에 그냥 두고서라도,
분모의 확률이 작을수록 커지게 되는
\(P(D|선택지)\)
를 최대로 만들기 위해,
가장 작은 가중치를 가졌을 3번을 선택하게 된 것입니다.
\(P(A|D)\)
와
\(P(D|A \cap B \cap C)\)
뭔가, 베이즈 정리가 조금씩 겹쳐보이기 시작하시나요?
여기서 베이즈정리의 유용성을 좀 더 이야기 하기 위해, 통계이야기를 잠깐 하고자 하는데요.
우리는 통계를 통해 각 원소가 측정할 수 있는 특정한 상태를 가지고 있는 집합, 즉 모집단(Population)을 조사하고 모집단 전체를 대표하는 상태를 정의합니다.
모집단 내의 모든 집단원을 파악하기는 힘들기 때문에, 표본을 추출하여, 모집단을 대표하는 상태값(모수)을 추측하는 방법을 사용합니다.
여기서 표본을 D, 모수를
\(\Theta\)
라 하면,
(표본은 문제의 사진이고, 모수는 선택지가 될 것 입니다.)
먼저 기본적으로 베이즈 정리에 의해 아래와 같은 관계를 가지게 됩니다.
\[P(\Theta | D)P(D) = P(D|\Theta)P(\Theta)\]
이와 더불어 표본 D가 주어졌을 때
\(P(D)\)
는 이미 상수로 정해졌다고 말할 수 있습니다.
\(P(D=d_{i})\)
D가 어떤 사상을 가지든, 이미 주어진 표본 (데이터) 안에서 가중치가 주어진 것이기 때문입니다.
그래서 보통,
\(P(D)\)
를 상수로 두고,
\(P(\Theta | D) \approx P(D | \Theta)P(\Theta)\)
위 식을 통해,
\(P(\Theta | D)\)
, 또는
\(P(D | \Theta)\)
를 최대화시키려는 방법으로 모수
\(\Theta\)
를 추측하게 됩니다.
조금 더 유식한 말로는,
\(P( \Theta | D)\)
를
\(Posterior\)
(분포)
\(P(D | \Theta)\)
를
\(Likelihood\)
라고 부릅니다.
\(P(\Theta)\)
는
\(Prior\)
라고 합니다.
\(Posterior\)
는 Data가 주어졌을 때, 특정 모수를 가질 확률을 의미하고,
\(Likelihood\)
는 반대로 특정 모수라고 가정할 때, 주어진 Data가 나올 확률입니다.
\(Prior\)
는 말그대로 모수에 대한 확률로써 사전에 주어진 또는 추측한 지식을 의미합니다.
일반적으로
\(Likelihood: \space P(D | \Theta)\)
는 구하기가 쉬운편입니다.
모수를 가정하고 주어진 표본(데이터)와의 오차를 정의할 수 있기 때문입니다.
이와는 상반되게,
\(Posterior \space P( \Theta | D)\)
는 모수 자체가 알려진 것이 아니기 때문에 (unknown) 구하기 쉽지 않습니다.
하지만, Bayes’s Theorem이 출동한다면? 베! 이! 즈!
\(P(\Theta | D) \approx P(D | \Theta)P(\Theta)\)
바로
\(Likelihood\)
를 활용하여 구할 수 있게 됩니다.
물론, Prior를 알고 있거나, 적절한 분포를 가정해야 겠지요. 좀 더 우리가 조정할 수 있는 파라미터가 추가된다고 생각하시면 더 좋을 것 같습니다.
정리하면,
베이즈 정리는 조건부확률의 정수가 들어있다.
나중에는 베이즈 네트워크까지 살펴볼 수 있기를… 예~!