Entropy란?
Random variable에서 기대되는 정보량 (or 정보량의 기댓값, 평균 정보량).
- 해당 random variable을 encoding하는데 필요한 평균정보량(단위 bit)의 lower bound.
정의식은 다음과 같음.
$$H(X)=H(p)=-\sum_{i=0}^n p(x_i)\ln{p(x_i)}$$
where
- $p$ : random variable $X$의 probability distribution
- $n$ : random variable $X$가 가질 수 있는 값의 종류.
- $p(x_i)$ : random variable $X$가 $x_i$라는 값을 가질 확률.
Entropy는 일종의 Transcendental function임.
아예 정보량에 대한 개념이 없는 경우 아래에 있는 정보량과 entropy를 먼저 읽을 것.
정의식을 살펴보면 다음이 성립
- 확률변수가 절대 될 수 없는 값이 있을 경우, 해당 값의 발생확률이 $p(x_i)=0$이 되므로 해당 값에 의한 entropy 기여도 없음.
- 확률변수가 특정 상수로 고정될 경우, $p(x_i)=1$이기때문에 $\log_2p(x_i)=\log_2 1=0$이 되므로 entropy가 0이 됨.
Continuous random variable 에서의 entropy는 다음과 같음.
$$H(x)=-\int_{-\infty}^{\infty}p(x)\ln{p(x)}dx$$
Information Theory의 아버지라고 할 수 있는 Shannon이
1948년 Noiseless coding theorem에서
- Entropy가 사실상 random variable의 상태(해당 확률변수가 가지게 된 값)를 전송하는데
- 필요한 데이터량(정보량, bit를 단위로함)의 이론적인 lowewr bound를 제공함
을 보인 이후, 정보량은 entropy로 정량화되고 있음.
예로 entropy가 4.7로 나오는 경우 5bit의 크기를 가지는 저장공간이 필요하다고 생각할 수 있음.
“정보량” 과 entropy : 예제를 이용한 설명
Discrete random variable $x$ 가 있다고 하고
- 해당 $x$ 의 값을 알게되는 경우
- 얼마만큼의 information(정보)를 얻는지를 정량화한다고 하자.
우선 information이란, 학습(어떤 사실을 알게될 때)에 있어 필요한 놀람의 양(degree of surprise) 로 정의할 수 있다.
- 빈번하게 일어날 것 같지 않은 event (발생확률 $p$가 매우 작음)가 발생하는 경우, 빈번하게 일어나는 event가 일어나는 경우보다 더 많은 information 을 획득.
- 항상 발생하는 event가 발생 할 경우, 우리가 얻는 information의 양은 없음 (=0).
위의 information의 개념에 따라,
- 특정 event가 발생할 경우 얻어지는 정보량 $h(x)$은
- 바로 해당 event 의 발생확률 $p(x)$에 의해 결정 되며
이를 수식으로 나타면 다음과 같음.
$$h(x=x_i)=-\log_2p(x_i)$$
where,
- $h(x=x_i)$ : random variable(확률변수)가 $x_i$ 값을 가질 때의 정보량
- $p(x_i)$ : random variable(확률변수) $x$가 $x_i$ 값을 가질 확률.
Event가 발생할지 안할지로 나누는 경우가 가장 기본적인 경우(or 컴퓨터에서 이진수 사용의 이유)로,
정보량의 수식에서 흔히 $\log$의 base(밑수)는 2를 사용하며 이때의 단위가 바로 bit (binary digit의 약자)가 됨.
밑수가 2인 $\log$ 가 아닌 자연로그를 사용하는 경우도 매우 많으며
(실제 수식 전개 등에 이용하는 경우 거의 $\ln$사용됨)
이 경우 단위는 Nat ($\approx 1.443\text{bit}$) 이라고 불림.
위에서 정의한 정보량으로 entropy를 설명하면, 다음과 같음.
$x$가 $0,1,\cdots,n$ 의 값을 가지는 random-variable일 때,
이 random-variable(확률변수) $x$에 대한 평균 정보량이 바로 entropy임.
Entropy 가 극대화되는 경우.
Discrete random variable의 경우엔,
확률변수가 가질 수 있는 값들의 발생확률이 모두 같은 경우,
즉, 해당 확률변수의 확률분포가 uniform probability distribution 인 경우 Entropy가 최대임.
다음의 Gaussian probability distribution을 따르는 Continuous random variable의 경우,
$$p(x)=\frac{1}{\sqrt{2\pi\sigma^2}}\exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)$$
해당 분포의 Variance, $\sigma^2$ 가 클수록 entropy가 증가한다.
- Gaussian probability distribution 에서 variance가 무한대일 경우 entropy는 최대.
- Variance가 무한대인 경우가 바로 uniform probability distribution임.
참고하면 좋은 자료
2022.05.12 - [.../Math] - [Math] Cross Entropy
2022.05.12 - [.../Math] - [Math] Kullback-Leibler Divergence
'... > Math' 카테고리의 다른 글
[Math] Orthogonal Projection (정사영) (0) | 2022.05.19 |
---|---|
[Math] Distance between Point and Plane : 점과 직선의 거리 (0) | 2022.05.19 |
[Math] Cross Entropy (0) | 2022.05.12 |
[Math] Kullback-Leibler Divergence (1) | 2022.05.12 |
[Math] Matrix Calculus : Numerator Layout (0) | 2022.05.08 |