Likelihood (우도)
likelihood는 probability처럼 가능성을 나타낸다는 비슷한 측면도 있으나 다음과 같은 차이가 있음.
probability처럼 likelihood는 상대적 비교는 가능 (즉, likelihood가 클수록 해당 event가 발생할 가능성이 큼)하나
모든 likelihood를 더한 값이 1이 나오지 않는다는 점에서 차이가 있음.
현재 알려진 사전확률 $P(H_i)$를 바탕으로 Event $E$가 일어날 가능성
기존 모델 혹은 가설($H_i$) 이 맞다는 가정하에 해당 관측(or Event) $E$가 일어날 가능성
$$
P(E|H_i)
$$
예를 들어, 조리가 완료된 라면에서 스프를 면보다 먼저 물에 넣었는지, 아니면 면을 스프보다 먼저 넣었는지를 구분할 수 있는지에 대한 가설이 있다고 하자.
구분을 못한다는 가설($H_0$)의 경우, 무엇을 먼저 넣었는지를 맞추는 경우($E$)가 일어날 확률은 0.5라고 할 수 있고,
이처럼 어떤 사전 확률(여기선 가설)을 바탕으로 어떤 사건이 일어날 가능성(확률)을 계산한 것이 바로 Likelihood이다.
$$
P(E|H_0)=0.5
$$
구분을 한다는 가설($H_1$)의 경우, 90%의 확률로 맞출 수 있다고 하면 이 경우의 likelihood는 다음과 같음.
$$
P(E|H_1)=0.9
$$
참고로, 현재 어느 가설이 맞은지 모르므로 각각의 가설이 맞을 확률은 0.5로 같다고 볼 수 있음: Prior Belief
$$
P(H_0)=P(H_1)=0.5
$$
만약 어떤 사람이 스프가 먼저인지 면이 먼저인지 5번 연속으로 맞출 각 가설별 likelihood는 다음과 같음.
$$
P(E_5|H_0)=0.5^5=0.031\\\\P(E_5|H_1)=0.9^5=0.59
$$
- 5번의 각 trial(수행)은 독립적임(independent) →곱의 법칙으로 계산됨.
Probability vs. Likelihood
💡 모든 경우에 대해 합쳐서 1이 나오느냐 아니냐의 차이.
일반적으로 Posterior probability등을 구할 때, likelihood를 많이 애기하는데,
특정 관측치($E$)가 고정될 때 가장 적합한 모델(or parameter, $H_i$)를 구하는데 사용되는 $P(E|H_i)$를
- likelihood라고 하며,
- 이를 반환해주는 함수를 likelihood function이라고 부름.
모델 (~분포,파라메터:$\boldsymbol{\theta}$,모수, $H_i$)가 고정되어 있지 않고 $E$(관측치) (or $\textbf{x}$)가 고정됨
likelihood function은 관측치 $\textbf{x}$로부터 모델의 parameter $\boldsymbol{\theta}$를 구하는 함수로 이를 강조하여 다음과 같이 기재하는 경우가 많음.
$$\mathcal{L}(\boldsymbol{\theta}; \textbf{x})$$
대조적으로 이미 모델(혹은 parameter:$\boldsymbol{\theta}$, $H_i$)을 알고 있는 경우에 특정 관측치($E$)가 발생할 확률을 구해주는 것을
- 확률함수 (or probability density function, 연속인 경우 확률밀도함수)라고 하며,
- 이 경우는 조건부확률의 관점에서 $P(E|H_i)$가 구해짐.
확률함수의 경우 모든 경우를 다 더하면 1이 되는데, 이때 $H_i$가 고정되고 모든 $E$들에 대해 더해지게 됨.
$H_i$ ($\boldsymbol{\theta}$로 표기되는 경우가 많음)가 고정(입력)되어 각 관측치($E$ or $\textbf{x}$ )에 대한 확률을 구함.
probability density function은 파라미터가 고정이라는 점을 강조하여 다음과 같이 기재됨.
$$p(\textbf{x};\boldsymbol{\theta})$$
probability function과 likelihood function의 차이점은 고정된 것(상수, 조건)과 변하는 것(변수)이 서로 바뀌어 있는 것 뿐이다.
주의할 것은 likelihood function은
$E$가 고정되고 모든 $H_i$에 대해 더해지게 되므로
총합이 1이 나오지 못함 (때문에 확률이라고 부를 수 없음).
Posterior probability와 관계
$$
\text{posterior} \propto \text{likelihood}\times\text{prior}
$$
특정 관측치로부터 parameter(모수, 모델)을 예측할 때,
- ML-EM(Maximum Likelihood Expectation Maximization)은 고정된 관측치에 대해 상대적 likelihood를 최대화하는 $H$(모델, 파라미터)를 구하는 것으로 사전확률(prior)가 없는 경우 사용됨.
- 만약 사전확률이 제공되는 경우는 MAP (Maximization A Posterior probability) estimation이 사용되어 실제 관측치 이후의 사후확률을 최대화하는 $H$를 구함.
위의 공식은 Bayes Theorem (조건부확률)에 의해 유도된다.
$$ P(H_1|E) = \dfrac{P(H_1)P(E|H_1)}{P(E)} $$
- $P(H_1)$ : Prior (사전확률). MAP에선 사용하지만 MLE에선 고정시킴. 원래 가지고 있던 $H_1$에 대한 blief.
- $P(E)$ : Evidence (증거). 관측이 일어날 확률이나 보통은 구하기 어려움. 일반적으로 전확률 법칙으로 구함.
- $P(E|H_1)$ : 모델(or 가설) $H_1$이 True일 경우 관측치 $E$가 발생할 확률로 likelihood function $\mathcal{L}(H_1;E)$의 결과값.
- $P(H_1|E)$ : 관측치 $E$가 발생한 이후(사후) $H_1$이 True일 posterior probability.
읽어볼 자료
'... > Math' 카테고리의 다른 글
[Math] Radian (Circular measure, 호도법) (0) | 2022.08.29 |
---|---|
[Math] Odds (승산, 승률) (0) | 2022.06.06 |
[Math] Normal Equation : Vector derivative(Numerator Layout)를 이용한 유도 (0) | 2022.06.01 |
[Math] 필요조건, 충분조건, 필요충분조건 (0) | 2022.05.19 |
[Math] Plane equation : 평면의 방정식 (0) | 2022.05.19 |