Entropy란?
Random variable에서 기대되는 정보량 (or 정보량의 기댓값, 평균 정보량).
- 해당 random variable을 encoding하는데 필요한 평균정보량(단위 bit)의 lower bound.
- Claude Shannon 이 1948년 증명한 Noiseless Coding Theorem의 핵심개념.
2025.03.08 - [Computer] - [Etc] A Mathematical Theory of Communication - Claude Shannon
[Etc] A Mathematical Theory of Communication - Claude Shannon
A Mathematical Theory of Communication 은 Claude Shannon이 1948년에 발표한 유명한 논문의 제목임.이 논문은 Bell System Technical Journal에 두 부분으로 나뉘어 출판되었음.Part I : 1948.7 - Volume 27, Issue3, pp. 379-423Part I
dsaint31.tistory.com
정의식은 다음과 같음.
H(X)=H(p)=−n∑i=0p(xi)lnp(xi)
where
- p : random variable X의 probability distribution
- n : random variable X가 가질 수 있는 값의 종류.
- p(xi) : random variable X가 xi라는 값을 가질 확률.
Entropy는 일종의 Transcendental function임.
아예 정보량에 대한 개념이 없는 경우 아래에 있는 정보량과 entropy를 먼저 읽을 것.
정의식을 살펴보면 다음이 성립
- 확률변수(random variable)가 절대 될 수 없는 값이 있을 경우, 해당 값의 발생확률이 p(xi)=0이 되므로 해당 값에 의한 entropy 기여도 없음.
- 확률변수가 특정 상수로 고정될 경우, p(xi)=1이기때문에 log2p(xi)=log21=0이 되므로 entropy가 0이 됨.
Continuous random variable 에서의 entropy는 다음과 같음.
H(x)=−∫∞−∞p(x)lnp(x)dx
Information Theory의 아버지라고 할 수 있는 Shannon이
1948년 Noiseless coding theorem에서
- Entropy가
- 사실상 random variable의 상태(해당 확률변수가 가지게 된 값)를 전송하는데
- 필요한 데이터량(정보량, bit를 단위로함)의 이론적인 lowewr bound를 제공함
을 보인 이후, 정보량 은 entropy로 정량화되고 있음.
예로 entropy가 4.7로 나오는 경우 5bit의 크기를 가지는 저장공간이 필요하다고 생각할 수 있음.
“정보량” 과 entropy : 예제를 이용한 설명
Discrete random variable x 가 있다고 하고
- 해당 x 의 값을 알게되는 경우
- 얼마만큼의 information(정보)를 얻는지를 정량화한다고 하자.
우선 information이란, 학습(어떤 사실을 알게될 때)에 있어 필요한 놀람의 양(degree of surprise) 로 정의할 수 있다.
- 빈번하게 일어날 것 같지 않은 event (발생확률 p가 매우 작음)가 발생하는 경우, 빈번하게 일어나는 event가 일어나는 경우보다 더 많은 information 을 획득.
- 항상 발생하는 event가 발생 할 경우, 우리가 얻는 information의 양은 없음 (=0).
위의 information의 개념에 따라,
- 특정 event가 발생할 경우 얻어지는 정보량 h(x)은
- 바로 해당 event 의 발생확률 p(x)에 의해 결정 되며
이를 수식으로 나타면 다음과 같음.
h(x=xi)=−log2p(xi)
where,
- h(x=xi) : random variable(확률변수)가 xi 값을 가질 때의 정보량
- p(xi) : random variable(확률변수) x가 xi 값을 가질 확률.
Event가 발생할지 안할지로 나누는 경우가 가장 기본적인 경우(or 컴퓨터에서 이진수 사용의 이유)로,
정보량의 수식에서 흔히 log의 base(밑수)는 2를 사용하며 이때의 단위가 바로 bit (binary digit의 약자)가 됨.
밑수가 2인 log 가 아닌 자연로그를 사용하는 경우도 매우 많으며
(실제 수식 전개 등에 이용하는 경우 거의 ln사용됨)
이 경우 단위는 Nat (≈1.443bit) 이라고 불림.
위에서 정의한 정보량으로 entropy를 설명하면, 다음과 같음.
x가 0,1,⋯,n 의 값을 가지는 random-variable일 때,
이 random-variable(확률변수) x에 대한 평균 정보량이 바로 entropy임.
Entropy 가 극대화되는 경우.
Discrete random variable의 경우엔,
확률변수가 가질 수 있는 값들의 발생확률이 모두 같은 경우,
즉, 해당 확률변수의 확률분포가 uniform probability distribution 인 경우 Entropy가 최대임.
다음의 Gaussian probability distribution을 따르는 Continuous random variable의 경우,
p(x)=1√2πσ2exp(−(x−μ)22σ2)
해당 분포의 Variance, σ2 가 클수록 entropy가 증가한다.
- Gaussian probability distribution 에서 variance가 무한대일 경우 entropy는 최대.
- Variance가 무한대인 경우가 바로 uniform probability distribution임.
참고하면 좋은 자료
2022.05.12 - [.../Math] - [Math] Cross Entropy
[Math] Cross Entropy
Cross Entropy란 두 probability distribution p, q 사이의 dissimilarity(차이)를 정량화하는 지표 로 사용됨. 엄밀하게는 dissimilarity는 KL-Divergence로 구해야 하나, Cross entropy로 해도 큰 문제없기 때문임. 다음
dsaint31.tistory.com
2022.05.12 - [.../Math] - [Math] Kullback-Leibler Divergence
[Math] Kullback-Leibler Divergence
어떤 random variable x (확률변수 x)에 대해 원래의 Probability Distribution p(x)와 Predicted Probability Distribution q(x) (or Approximated Probability Distribution)가 있을 때, 각 경우의 entropy에 대한 difference가 바로 KL
dsaint31.tistory.com

'... > Math' 카테고리의 다른 글
[Math] Orthogonal Projection (정사영) (0) | 2022.05.19 |
---|---|
[Math] Distance between Point and Plane : 점과 직선의 거리 (0) | 2022.05.19 |
[Math] Cross Entropy (0) | 2022.05.12 |
[Math] Kullback-Leibler Divergence (1) | 2022.05.12 |
[Math] Matrix Calculus : Numerator Layout (0) | 2022.05.08 |