엔트로피(Entropy)는 정보이론의 가장 핵심 내용이다. 
  • 정의
     엔트로피란 무작위 사건의 결과 또는 r.v.에 대한 불확실성을 포함하는 정보의 양을 의미한다. 
    예를들어, 동전던지기와 육면체 주사위 던지기 결과로 비교해보면 육면체 주사위를 던지는 경우가 엔트로피가 더 크다. 
    즉, 엔트로피가 높을수록 불확실성이 커지게 된다. 이와 반대로 어떠한 계에서의 정보량은 불확실성의 정도이므로 불확실성이 적은 계의 정보 엔트로피는 줄어들 수 있다. 


  • Self-information
     Self-information이란 확률 $p$를 가지는 사건(혹은 메세지) $A$의 정보를 의미한다. 
    어떤 메세지 $m$에 대한 self-information은 다음과 같이 정의된다. 

    $$I(m)=\log\Big(\frac{1}{p(m)}\Big)=-\log p(m) [bit]$$

    식에 따라 정보량은 확률의 $log$ 값을 나타내는데, 확률은 0~1 사이의 값이므로 이를 정보량을 양수로 표현하기 위해 $(-)$를 붙여서 양수로 만들어준다. 


  • Entropy
    Self-information이 하나의 메세지에 대한 자기 자신의 정보량을 의미한다면, 엔트로피란 다수의 메세지($M$)에 대한 각각의 정보량의 평균값을 의미한다. 
    평균값을 계산하는 방식은 $M$의 사건들이 discrete한 경우와 continuous한 경우에 따라 각각 다음과 같이 정의 된다. 

        - Discrete
    $$ \begin{aligned}H(E)&=E[I(M)] \\ &=\sum_{m\in M}p(m)I(m) \\ &=-\sum_{m\in M}p(m)\log p (m) \end{aligned}$$

        - Continuous
    $$ \begin{aligned} H(X)&=E(x) \\ &=\int p(x)I(x) \\ &=-\int p(x) \log\big( p(x) \big)   \end{aligned}$$

    이 때, 어떤 메세지 공간 $M$에 대해서 각 사건들이 uniform distribution이 되는 경우 엔트로피 값이 최대가 된다. 즉, 각 사건의 확률 $p(m)$이 모두 동일할 경우 엔트로피가 최대가 된다. 


+ Recent posts