Information Bottleneck(IB)를 이해하는 데 있어 중요한 수식과 이론들을 먼저 짚어보자. 하나하나 모두 멋진 이야기를 해주고 있다 :)
1. Entropy : 데이터 $X$에 대해 기대할 수 있는 정보량/불확실성
$$
H(X)=E_{p(X)}[-\log p(X)]=\sum_{x} \left(-\log p(x)\right)p(x)
$$ 이 표현의 기원에 대해서는 Shannon이 정의한 몇몇 공리들에 의해 만들어졌지만, 여기서는 간단히 수식만 살펴보며 의미를 되새기자 :
(1) $\log p(X)$앞에 붙은 음수를 보자면 - 어떤 사건이 발생할 확률이 낮을수록 그 사건에 대한 정보량이 높다고 평가하는 역할을 한다. 자주 마주하고 익숙한 데이터일수록 우리가 파악해야 할 정보량이 적다는 걸 암시한다.
(2) $\log$자체로써는 어떤 역할을 할까? ''독립''적인 정보들을 한 곳에 모았을 때 가산(additive)적으로 누적될 수 있게 하는 역할을 한다. $n$차원의 변수에 대해 변수들이 서로 독립이라면 $\log p(X_1,...,X_n) = \sum_{i=1}^n \log p(X_i)$와 같이 정보가 쌓여가는데 - 특히 가산적이라는 특징이 정보가 '쌓여'간다는 우리의 직관을 잘 반영한다.
또한 확률값이 $0$과 $1$사이에만 한정되던걸 음수와 로그함수로 정보량이 $0$과 $\infty$사이가 되게끔 scale해주기에 정보량이 아예 없다는 것부터 무한히 많다까지의 얘기를 할 수 있게 된다.
(3) 한가지 눈여겨볼 점은 어떤 데이터 $X$의 정보량이 많다 적다의 평가기준은 오직 $X$의 분포에만 의존한다. $X$에서 생성되는 사건들이 다양한 의미를 가질 수 있음에도 각 사건의 발생확률을 제외한 여타 의미들이 정보량 측도에 고려될 수 없다는 것이다. (이 문제를 해결하기 위해서는 우리가 부여하고 싶은 의미가 확률분포에 다 투영될 수 있도록 데이터를 가공해야 할 것이다.)
공리에서부터 어떻게 derive되었는지 궁금하다면 다음의 위키피디아를 살펴보자 :
https://en.wikipedia.org/wiki/Entropy_(information_theory)
2. Conditional entropy : $Y$가 주어졌을 때 $X$에 기대할 수 있는 정보량
$$
\begin{align}
H(X|Y) &= E_{p(X,Y)}[-\log p(X|Y)] \\
&= H(X,Y)-H(Y)
\end{align}
$$ 두 번째 수식을 보면 두 데이터 $X,Y$가 가지는 총 정보량에서 $Y$의 정보량을 제외하고 남은 정보량이기도 하다. 아래 부등식을 통해 좀 더 직관적으로 알아보자 :
$$
H(X|Y) \leq H(X)
$$ 관심 데이터 $X$의 정보를 측량하는데 앞서 다른 정보 $Y$를 미리 알고 있다면 앞으로 파악해야할 $X$ 정보량이 줄어들 수 있음을 말한다. (달리 말하면 $X$정보를 예측하는데 있어 그 어떤 다른 데이터이든 도움될 수 있는 여지가 있다는 뜻이다.)
등호가 성립하는 때는 $X$와 $Y$가 서로 독립인 경우인데, $X$와 연관된 특성이 $Y$에 아예 없다면 $X$의 불확실성을 더 이상 줄일 수가 없다는 얘기이다. 그렇다면 반대로 $Y$가 $X$에 대한 연관성이 클수록 $Y$ 이외의 $X$정보량이 더 줄어들까?
3 . Relative entropy 혹은 Kullback-Leibler(KL) distance : 두 분포간의 거리, 차이
$$
D_{KL}\left( p \| q \right) = E_p \left[ \log \frac{p(X)}{q(X)} \right]
$$ 분포 $q$를 $p$로 근사하였을 때의 차이이기도 하다.
4. Mutual Information :
$$
\begin{align}
I(X;Y) &= D_{KL}\left(\,p(x,y)\| p(x)p(y)\,\right) \\
&= H(X)-H(X|Y)
\end{align}
$$ 정의가 각 분포 $p(x,y)$와 $p(x)p(y)$간의 차이인데 $X$와 $Y$의 통계적 의존성이 클수록 두 분포간 차이가 커진다. 즉, $X$와 $Y$가 서로 연관된 정보량이 얼마나 큰지 알려주며 따라서 3번에 언급한 질문에 대한 대답이기도 하다 - 연관성이 크면 클수록 예측에 도움될 것이다.
아래의 벤다이어그램을 통해 entropy와 conditional entropy, 그리고 mutual information의 양적 관계를 확인해보자 :
Reference :
- Cover, Thomas M. Elements of information theory. John Wiley & Sons, 1999.
'인공지능-통계학의 다양한 주제' 카테고리의 다른 글
[Exponential Family] 0. 서론 (0) | 2023.08.02 |
---|---|
[Information Bottleneck] 4. IB의 의의와 필자 생각 (0) | 2023.07.19 |
[Information Bottleneck] 3. Generalization of Minimal Sufficient Statistics (0) | 2023.07.18 |
[Information Bottleneck] 2. Statistics (0) | 2023.07.18 |
[Information Bottleneck] 0. 서론 (0) | 2023.07.18 |