[Math] Entropy 란 (평균정보량, 정보량의 기댓값)

2022. 5. 12. 15:32·.../Math
728x90
728x90

Entropy란?

Random variable에서 기대되는 정보량 (or 정보량의 기댓값, 평균 정보량).
  • 해당 random variable을 encoding하는데 필요한 평균정보량(단위 bit)의 lower bound.
  • Claude Shannon 이 1948년 증명한 Noiseless Coding Theorem의 핵심개념.

2025.03.08 - [Computer] - [Etc] A Mathematical Theory of Communication - Claude Shannon

 

[Etc] A Mathematical Theory of Communication - Claude Shannon

A Mathematical Theory of Communication 은 Claude Shannon이 1948년에 발표한 유명한 논문의 제목임.이 논문은 Bell System Technical Journal에 두 부분으로 나뉘어 출판되었음.Part I : 1948.7 - Volume 27, Issue3, pp. 379-423Part I

dsaint31.tistory.com

 

정의식은 다음과 같음.

$$H(X)=H(p)=\sum_{i=0}^n p(x_i)\left(-\log_2{p(x_i)}\right)$$

where

  • $p$ : random variable $X$의 probability distribution
  • $n$ : random variable $X$가 가질 수 있는 값의 종류.
  • $p(x_i)$ : random variable $X$가 $x_i$라는 값을 가질 확률.
Entropy는
일종의 Transcendental function임.

 

아예 정보량에 대한 개념이 없는 경우 아래에 있는 정보량과 entropy를 먼저 읽을 것.

 

정의식을 살펴보면 다음이 성립

  • 확률변수(random variable, $X$)가 절대 될 수 없는 값이 있을 경우, 해당 값의 발생확률이 $p(x_i)=0$이 되므로 해당 값에 의한 entropy 기여도 없음.
  • 확률변수가 특정 상수로 고정(항상, $X=x_i$)될 경우, $p(x_i)=1$이기때문에 $\log_2p(x_i)=\log_2 1=0$이 되므로 entropy가 0이 됨.

 

더보기

Continuous random variable 에서의 entropy는 다음과 같음.

$$H(x)=-\int_{-\infty}^{\infty}p(x)\ln{p(x)}dx$$


 

Information Theory의 아버지라고 할 수 있는 Shannon이

1948년 Noiseless coding theorem에서

  • Entropy가
  • 사실상 random variable의 상태(해당 확률변수가 가지게 된 값)를 전송하는데
  • 필요한 데이터량(정보량, bit를 단위로함)의 이론적인 lowewr bound를 제공함

을 보인 이후, 정보량 은 entropy로 정량화되고 있음. 

예로 entropy가 4.7로 나오는 경우 5bit의 크기를 가지는 저장공간이 필요하다고 생각할 수 있음.


“정보량” 과 entropy : 예제를 이용한 설명

Discrete random variable $x$ 가 있다고 하고

  • 해당 $x$ 의 값을 알게되는 경우
  • 얼마만큼의 information(정보)를 얻는지를 정량화한다고 하자.

 

우선 information이란, 학습(어떤 사실을 알게될 때)에 있어 필요한 놀람의 양(degree of surprise) 로 정의할 수 있다.

  • 빈번하게 일어날 것 같지 않은 event (발생확률 $p$가 매우 작음)가 발생하는 경우, 빈번하게 일어나는 event가 일어나는 경우보다 더 많은 information 을 획득.
  • 항상 발생하는 event가 발생 할 경우, 우리가 얻는 information의 양은 없음 (=0).

 

위의 information의 개념에 따라, 

  • 특정 event가 발생할 경우 얻어지는 정보량 $h(x)$은 
  • 바로 해당 event 의 발생확률 $p(x)$에 의해 결정 되며 

이를 수식으로 나타면 다음과 같음.

$$h(x=x_i)=-\log_2p(x_i)$$

where,

  • $h(x=x_i)$ : random variable(확률변수)가 $x_i$ 값을 가질 때의 정보량
  • $p(x_i)$ : random variable(확률변수) $x$가 $x_i$ 값을 가질 확률.

 

Event가 발생할지 안할지로 나누는 경우가 가장 기본적인 경우(or 컴퓨터에서 이진수 사용의 이유)로,

정보량의 수식에서 흔히 $\log$의 base(밑수)는 2를 사용하며 이때의 단위가 바로 bit (binary digit의 약자)가 됨.

 

밑수가 2인 $\log$ 가 아닌 자연로그를 사용하는 경우도 매우 많으며

(실제 수식 전개 등에 이용하는 경우 거의 $\ln$사용됨)

이 경우 단위는 Nat ($\approx 1.443\text{bit}$) 이라고 불림.

 

위에서 정의한 정보량으로 entropy를 설명하면, 다음과 같음.

$x$가 $0,1,\cdots,n$ 의 값을 가지는 random-variable일 때, 
이 random-variable(확률변수) $x$에 대한 평균 정보량이 바로 entropy임. 

Entropy 가 극대화되는 경우.

Discrete random variable의 경우엔,

확률변수가 가질 수 있는 값들의 발생확률이 모두 같은 경우,

즉, 해당 확률변수의 확률분포가 uniform probability distribution 인 경우 Entropy가 최대임.

 

다음의 Gaussian probability distribution을 따르는 Continuous random variable의 경우,

$$p(x)=\frac{1}{\sqrt{2\pi\sigma^2}}\exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)$$

해당 분포의 Variance, $\sigma^2$ 가 클수록  entropy가 증가한다.

  • Gaussian probability distribution 에서 variance가 무한대일 경우 entropy는 최대.
  • Variance가 무한대인 경우가 바로 uniform probability distribution임.

참고하면 좋은 자료

2022.05.12 - [.../Math] - [Math] Cross Entropy

 

[Math] Cross Entropy

Cross Entropy란 두 probability distribution $p$, $q$ 사이의 dissimilarity(차이)를 정량화하는 지표 로 사용됨. 엄밀하게는 dissimilarity는 KL-Divergence로 구해야 하나, Cross entropy로 해도 큰 문제없기 때문임. 다음

dsaint31.tistory.com

2022.05.12 - [.../Math] - [Math] Kullback-Leibler Divergence

 

[Math] Kullback-Leibler Divergence

어떤 random variable $x$ (확률변수 $x$)에 대해 원래의 Probability Distribution $p(x)$와 Predicted Probability Distribution $q(x)$ (or Approximated Probability Distribution)가 있을 때, 각 경우의 entropy에 대한 difference가 바로 KL

dsaint31.tistory.com

 

'... > Math' 카테고리의 다른 글

[Math] Distance between Point and Plane : 점과 직선의 거리  (0) 2022.05.19
[ML] Softmax function  (0) 2022.05.12
[Math] Cross Entropy  (0) 2022.05.12
[Math] Kullback-Leibler Divergence  (1) 2022.05.12
[Math] Matrix Calculus : Numerator Layout  (0) 2022.05.08
'.../Math' 카테고리의 다른 글
  • [Math] Distance between Point and Plane : 점과 직선의 거리
  • [ML] Softmax function
  • [Math] Cross Entropy
  • [Math] Kullback-Leibler Divergence
dsaint31x
dsaint31x
    반응형
    250x250
  • dsaint31x
    Dsaint31's blog
    dsaint31x
  • 전체
    오늘
    어제
    • 분류 전체보기 (740)
      • Private Life (13)
      • Programming (186)
        • DIP (104)
        • ML (26)
      • Computer (119)
        • CE (53)
        • ETC (33)
        • CUDA (3)
        • Blog, Markdown, Latex (4)
        • Linux (9)
      • ... (351)
        • Signals and Systems (103)
        • Math (172)
        • Linear Algebra (33)
        • Physics (42)
        • 인성세미나 (1)
      • 정리필요. (54)
        • 의료기기의 이해 (6)
        • PET, MRI and so on. (1)
        • PET Study 2009 (1)
        • 방사선 장해방호 (4)
        • 방사선 생물학 (3)
        • 방사선 계측 (9)
        • 기타 방사능관련 (3)
        • 고시 (9)
        • 정리 (18)
      • RI (0)
      • 원자력,방사능 관련법 (2)
  • 블로그 메뉴

    • Math
    • Programming
    • SS
    • DIP
  • 링크

    • Convex Optimization For All
  • 공지사항

    • Test
    • PET Study 2009
    • 기타 방사능관련.
  • 인기 글

  • 태그

    Vector
    function
    SS
    linear algebra
    Convolution
    Python
    인허가제도
    검사
    random
    signal_and_system
    Programming
    SIGNAL
    Term
    Probability
    numpy
    Optimization
    math
    fourier transform
    opencv
    signals_and_systems
  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.3
dsaint31x
[Math] Entropy 란 (평균정보량, 정보량의 기댓값)
상단으로

티스토리툴바