Out of Bag (OOB)는 Bagging (Bootstrap aggregating)과 같이 Bootstraping을 이용한 Ensemble Model에 등장하는 용어.
- Bootstrap Sampling을 사용할 경우, 특정 predictor를 훈련시킬 때 sample point는 여러번 사용될 수 있음.
- 이는 다른 특정 sample point는 아예 해당 predictor를 훈련시킬 때 사용되지 않음을 의미함.
확률을 계산해보면, 평균적으로 대략 36.7%의 sample point가 특정 predictor를 훈련시킬 때 사용되지 않음.
이들은 훈련에서 사용되지 않으므로 해당 predictor에 대한 일종의 validation set으로 사용가능함.
이같은 sample point를 가르켜 out of bag 객체라고 부름.
각각의 predictor를 훈련시킬 때의
oob들은 서로 일치하지 않는다.
유도
$m$ 개의 sample 에서 random sampling with replacement를 수행할 때, 하나의 sample을 선택할 때 특정 sample이 선택되지 않을 확률은 $1-\frac{1}{m}$ 임.
$m$ 개의 sample 을 선택하므로 결국 특정 $i^\text{th}$ sample이 선택되지 않을 확률은 다음과 같음.
$$
P_i=\left(1-\frac{1}{m}\right)^m
$$
이 확률은 $m$이 매우 커질 경우, 대략 0.367
정도가 나오는데 이는 다음의 과정을 통해 구해짐.
우선 해당 확률에 $\ln$를 취하면 다음과 같이 지수를 계수로 변경 가능함.
$$
\begin{aligned} \ln{P_i}&=\ln\left(1-\frac{1}{m}\right)^m \\ &=m \ln \left( 1-\frac{1}{m} \right) \end{aligned}
$$
$x=\frac{1}{m}$이라고 하고 $x$로 $m$을 대치하면 다음과 같은 식으로 변경됨.
$$
\begin{aligned}\ln P_i &= \frac{1}{x}\ln\left(1-x\right)\\ &=\frac{\ln (1-x)}{x}\\ \lim_{m\to\infty}\ln P_i &=\lim_{x\to 0}\frac{\ln (1-x)}{x}\end{aligned}
$$
로피탈의 정리를 이용하면,
$$
\begin{aligned} \lim_{m \to \infty} \ln P_i &= \lim_{x \to 0} \frac{\ln (1-x) }{x}\\&=\lim_{x \to 0} \frac{ \frac{d}{dx}\ln(1-x)}{\frac{d}{dx}x}\\&=\lim_{x \to 0}\frac{\frac{-1}{(1-x)}}{1}\\&=\lim_{x \to 0} \frac{-1}{1-x}\\&=-1 \\ \lim_{m \to \infty}\ln P_i &= -1\\ \therefore P_i&=e^{-1} \\ &=0.3678 \cdots\end{aligned}
$$
즉, $P_i$가 Sample의 수가 크면 0.367 정도이나 작을 경우에도 대략 0.3 정도 되기 때문에 훈련데이터의 수만큼으로 bagging을 수행할 경우, oob
는 대략 1/3 수준이라고 생각할 수 있음.
같이 보면 좋은 자료들
'... > Math' 카테고리의 다른 글
[Math] Hypothesis Testing 에서 Conservative Approach (보수적 접근법)란? (1) | 2024.07.05 |
---|---|
[Math] Duality of Projective Geometry (0) | 2024.06.28 |
[Math] Ex: Lagrange Method: Tangency Condition (0) | 2024.06.19 |
[Math] Example of Lagrange Method (0) | 2024.06.19 |
[Math] Geometry: Euclidean, Projective, Non-Euclidean (0) | 2024.06.16 |