Binomial Distribution (이항분포)
1. 정의
이 나올 확률(or 성공확률)이 $p$이고, 0
이 나올 확률(or 실패확률)이 $1-p$인
Bernoulli trial을 $N$번 반복하는 경우의 성공횟수를 Random Variable $X$라고 할 경우,
$X$가 따르는 probability distribution(확률분포)가 바로 binomial distribution임.
식으로 표현할 경우 다음과 같음.
X \sim \text{Bin}(x;N,p)
- probability distribution를 결정짓는 variables를 parameters라고 부르며, 여기서는 $N$과 $p$이다.
을 통해 random variables과 parameters를 구분하고 있다.
달리 애기하면 다음이 성립한다.
- Bernoulli trial을 1회 수행한 경우의 확률변수는 Bernoulli distribution을 따른다고 하며,
- Bernoulli trial을 $N$회 수행한 경우의 확률변수는 Binomial distirbution을 따른다.
- 즉, $N=1$인 경우, Binomial distribution은 Bernoulli distribution이다.
2. 수식
\text{Bin}(x;N,p)&=_NC_x p^x(1-p)^{(N-x)} \\ &= \left( \begin{matrix}N \\ x\end{matrix}\right)p^x(1-p)^{N-x} \\
- $\left( \begin{matrix}N \\ x \end{matrix} \right)$: combination (조합). $N$개의 element에서 $x$개의 element를 순서에 상관없이 선택하는 경우의 수.
- $N!$ : factorial. $N! = N\cdot(N-1)\cdot(N-2) \cdots 2\cdot1$
참고 : Poisson Distribution과의 관계
- 이는 binomial distribution에서 $N$을 무한대로 보내고, mean이었던 $\mu=Np=\lambda$로 치환하여 얻어짐.
- 일반적으로 $N \ge 10$, 성공확률 $p\le 0.1$인 binomial distribution인 경우 Poisson distribution과 유사함.
- 즉, 발생확률 $p$가 매우 낮은 경우면서 $N$이 무한대인 binomial distribution이 바로 Poisson Distribution임.
부가적으로 $\lambda$가 커질수록 Poisson Distribution은 Gaussian Distribution(=Normal Distribution)과 유사해짐.
3. Moment
3.1. Expected Value (기댓값, 1st moment)
증명은 다음을 참고.
E[X]&=E\left[\sum^N_{i=1}Y_i\right] \\
&= \sum^N_{i=1} E\left[ Y_i \right] \\
&= \sum^N_{i=1}p \\
where, $Y_i$는 각각이 독립인 Bernoulli random variable임.
3.2 Variance (분산, 2nd moment)
기계학습의 Ensemble Learning 과 Binomial Distribution
참고로 binomial distribution은
- Ensemble Learning에서
- 충분히 많은 수의 독립적인 weak learner들로
- strong learner를 만들 수 있는
이론적 근거로 사용된다.
예를 들면,
Binary classification 에서 51%의 accuracy를 가지는 weak model들이 1000개가 있다고 하면,
이들을 hard voting으로 aggregation한 ensemble model은 accuracy가 75%정도나 된다.
이는 binomial distribution $\text{Bin}(x;N=1000,p=0.51)$에서
$x=499$인 경우의 Cumulative Density Function의 값 을 1에서 빼주어 구할 수 있다.
다수결인 hard voting이므로 1000개의 모델 중 499개 이하로만 틀리면 전체 ensemble 모델은 정답을 맞추게 되기 때문이다.
from scipy.stats import binom
물론 충분한 수의 독립적인 모델을 훈련시키는 것은 대부분의 경우 쉽지 않은 문제이기 때문에 ideal한 경우를 말하고 있긴 하다.
