본문 바로가기
IT

정보이론과 엔트로피

by CHML 2016. 10. 20.
1. 정보이론에서 엔트로피가 갖는 의미

물리학에서 엔트로피는 어떠한 물리계의 무질서한 정도를 의미한다. 정보이론에서도 엔트로피는 무질서한 정도를 뜻하며, 더욱 엄밀히 말하자면 "불확실성"을 의미한다. 아래의 [그림 1-a]는 엔트로피가 낮은 데이터이고, [그림 1-b]는 엔트로피가 높은 데이터이다.


[그림 1] 데이터와 엔트로피


위의 [그림 1-a]의 데이터에서는 모든 영역이 검은색이므로 불확실성이 낮다. 즉, 데이터 중에 어떤 부분을 선택하더라도 검은색이 추출된다는 것을 확실하게 말할 수 있다. 그러나 [그림 1-b]의 데이터에서는 흰색과 검은색이 무작위하게 분포되어 있기 때문에 불확실성이 높다.

위의 [그림 1-a]와 같은 데이터를 표현할 때는 검은색을 표현하는 단 하나의 비트 1만 있으면 충분할 것이다. 그러나 [그림 1-b]와 같은 데이터를 표현하기 위해서는 001010110101101010011101101010010110과 같이 총 36개의 비트가 필요하다. 이와 같이 정보이론에서 엔트로피가 높다는 것은 정보의 양이 많다는 것을 의미한다.


2. 엔트로피에 대한 확률적 정의

정보이론에서는 엔트로피를 확률적으로 정의한다. 먼저, 엔트로피를 정의하기 위해 전체 데이터에서 어떠한 기호가 등장할 확률 (symbol probability)을 [식 1]과 같이 정의한다. 아래의 [식 1]에서 ${m}_{i}$는 데이터에서 어떠한 기호 ${s}_{i}$가 등장하는 횟수이며, $L$은 데이터의 길이이다.



어떠한 기호의 정보량은 아래의 [식 2]와 같이 정의된다. 로그 함수의 정의에 따라 정보량은 ${P}_{i}$가 작아질수록 커지며, ${P}_{i}$가 1에 가까울수록 0으로 수렴한다. 어떠한 기호가 나타날 확률이 아주 낮다면, 이 기호가 나타난다는 것을 알기 위해서는 많은 정보가 필요할 것이다. 그러나 어떠한 기호가 나타날 확률이 1에 수렴한다면, 적은 양의 정보만으로도 기호가 나타날 것을 쉽게 유추해낼 수 있을 것이다.



마지막으로, 엔트로피는 아래의 [식 3]과 같이 정의된다.



위의 [식 3]의 정의와 같이 엔트로피는 정보량의 기댓값이라고 생각할 수 있다. 즉, 정보이론에서 엔트로피는 어떠한 데이터를 표현하기 위한 평균 정보량을 의미한다. 또한, [식 3]에서 알 수 있듯이 엔트로피는 각각의 기호가 등장할 확률이 비슷해질수록 증가하며, 각각의 기호가 등장할 확률이 모두 동일할 때 가장 크다. 이러한 현상은 전체 데이터에서 흰색과 검은색이 나타날 확률이 비슷한  [그림 1-b]의 엔트로피가 검은색만 존재하는 [그림 1-a]의 엔트로피보다 왜 높은지를 알려준다.