Binomial Distribution (이항분포)
1. 정의
1
이 나올 확률(or 성공확률)이 $p$이고, 0
이 나올 확률(or 실패확률)이 $1-p$인
Bernoulli trial을 $N$번 반복하는 경우의 성공횟수를 Random Variable $X$라고 할 경우,
$X$가 따르는 probability distribution(확률분포)가 바로 binomial distribution임.
식으로 표현할 경우 다음과 같음.
$$
X \sim \text{Bin}(x;N,p)
$$
- probability distribution를 결정짓는 variables를 parameters라고 부르며, 여기서는 $N$과 $p$이다.
;
을 통해 random variables과 parameters를 구분하고 있다.
달리 애기하면 다음이 성립한다.
- Bernoulli trial을 1회 수행한 경우의 확률변수는 Bernoulli distribution을 따른다고 하며,
- Bernoulli trial을 $N$회 수행한 경우의 확률변수는 Binomial distirbution을 따른다.
- 즉, $N=1$인 경우, Binomial distribution은 Bernoulli distribution이다.
2023.08.17 - [.../Math] - [Math] Bernoulli Distribution (베르누이 분포)
2. 수식
$$
\begin{aligned}
\text{Bin}(x;N,p)&=_NC_x p^x(1-p)^{(N-x)} \\ &= \left( \begin{matrix}N \\ x\end{matrix}\right)p^x(1-p)^{N-x} \\
&=\frac{N!}{x!(N-x)!}p^x(1-p)^{N-x}
\end{aligned}
$$
where
- $\left( \begin{matrix}N \\ x \end{matrix} \right)$: combination (조합). $N$개의 element에서 $x$개의 element를 순서에 상관없이 선택하는 경우의 수.
- $N!$ : factorial. $N! = N\cdot(N-1)\cdot(N-2) \cdots 2\cdot1$
2024.02.04 - [.../Math] - [math] Factorial(계승), Permutation (순열) & Combination (조합)
참고 : Poisson Distribution과의 관계
- 이는 binomial distribution에서 $N$을 무한대로 보내고, mean이었던 $\mu=Np=\lambda$로 치환하여 얻어짐.
- 일반적으로 $N \ge 10$, 성공확률 $p\le 0.1$인 binomial distribution인 경우 Poisson distribution과 유사함.
- 즉, 발생확률 $p$가 매우 낮은 경우면서 $N$이 무한대인 binomial distribution이 바로 Poisson Distribution임.
부가적으로 $\lambda$가 커질수록 Poisson Distribution은 Gaussian Distribution(=Normal Distribution)과 유사해짐.
2023.10.25 - [.../Math] - [Math] Poisson Distribution (포아송분포)
3. Moment
3.1. Expected Value (기댓값, 1st moment)
$$E[X]=Np$$
증명은 다음을 참고.
$$
\begin{aligned}
E[X]&=E\left[\sum^N_{i=1}Y_i\right] \\
&= \sum^N_{i=1} E\left[ Y_i \right] \\
&= \sum^N_{i=1}p \\
&=Np
\end{aligned}
$$
where, $Y_i$는 각각이 독립인 Bernoulli random variable임.
3.2 Variance (분산, 2nd moment)
$$\text{Var}[X]=Np(1-p)$$
2022.03.31 - [.../Math] - [Statistics] Moment (Probability Moment)
기계학습의 Ensemble Learning 과 Binomial Distribution
참고로 binomial distribution은
- Ensemble Learning에서
- 충분히 많은 수의 독립적인 weak learner들로
- strong learner를 만들 수 있는
이론적 근거로 사용된다.
예를 들면,
Binary classification 에서 51%의 accuracy를 가지는 weak model들이 1000개가 있다고 하면,
이들을 hard voting으로 aggregation한 ensemble model은 accuracy가 75%정도나 된다.
이는 binomial distribution $\text{Bin}(x;N=1000,p=0.51)$에서
$x=499$인 경우의 Cumulative Density Function의 값 을 1에서 빼주어 구할 수 있다.
다수결인 hard voting이므로 1000개의 모델 중 499개 이하로만 틀리면 전체 ensemble 모델은 정답을 맞추게 되기 때문이다.
from scipy.stats import binom
1-binom.cdf(499,1000,0.51)
물론 충분한 수의 독립적인 모델을 훈련시키는 것은 대부분의 경우 쉽지 않은 문제이기 때문에 ideal한 경우를 말하고 있긴 하다.
'... > Math' 카테고리의 다른 글
[Math] Mean : Measures of Central Tendency (0) | 2023.04.13 |
---|---|
[Math] Type of Data and Scale of Measurement (0) | 2023.03.15 |
[Math] Random Variable (0) | 2023.03.09 |
[Math] Taylor Expansion and Taylor Theorem (테일러 전개) (0) | 2023.02.27 |
[Math] Sigmoid function (0) | 2022.12.28 |