MEP로 구한 지수족 분포의 파라미터 $\theta$를 파악하기 앞서 먼저 최대우도추정하는 문제를 되짚어보자. 주어진 샘플들 $X_1,...,X_n$을 지수족 분포 $q_\theta$로 모델링하여 MLE구하는 문제를 식으로 정리해보면 :
$$
\begin{align}
q^*_{ML}(x)
&= \arg\min_{q \in \theta}\; \sum_{i=1}^n \left( -\log q_\theta (X_i) \right) \\
&= \arg\min_{q \in \theta}\; E_{\hat{p}}\left[-\log q_{\theta}(X) \right] \\
&= \arg\min_{q \in \theta}\; D(\hat{p}\|q_\theta) + H(\hat{p}) \\
&= \arg\min_{q \in \theta}\; D(\hat{p}\|q_\theta) \\
&\approx \arg\min_{q \in \theta}\; D(p\|q_\theta)
\end{align}
$$알고보니 $\theta$의 MLE를 구하는 과정은 empirical distirbution $\hat{p}$와 최대한 근접한 분포 $q_\theta$를 찾는 것이였으며 샘플이 무한히 많다면 $q^*_{ML}$은 모분포 $p$에도 근접할 것으로 기대할 수 있다.
그렇다면 MLE와 MEP와의 관계는 무엇일까? 흥미롭게도 두 문제는 서로 Dual관계에 있으며 각 최적분포 $q^*_{ML}$와 $q^*_{ME}$가 서로 동일하다는 것이다 :
$$
q^*_{ML}(x) = \arg\min_{q \in \theta}\; D(\hat{p}\|q_\theta) = \arg\min_{q \in \mathcal{P}}\; D(q\|u) = q^*_{ME}
$$증명은 MLE로 구한 $\hat{\theta}_{ML}$이 MEP에서 고려하는 분포족 $\mathcal{P} := \{\, q\,|\, E_q[f_j] = \hat{E}[f_j],\, \forall j \}$에 속함을 보이면 된다 :
$$
\begin{align}
\frac{\partial}{\partial \theta_j}\sum_{i=1}^n \log q_\theta (X_i) &= \sum_{i=1}^n f_j(X_i) - n \frac{\partial}{\partial \theta_j}A(\theta) \\
&=\sum_{i=1}^n f_j(X_i) -n\frac{\int \frac{\partial}{\partial \theta_j}\exp(\theta^\top f(x)) \nu(dx)}{\int \exp(\theta^\top f(y)) \nu(dy)} \\
&= \sum_{i=1}^n f_j(X_i) -n \int f_j(x) \frac{\exp(\theta^\top f(x))}{\exp(A(\theta))}\nu(dx) \\
&= \sum_{i=1}^n f_j(X_i) -n E_q[f_j(X)]
\end{align}
$$ $\hat{\theta}_{ML}$에서 first derivative가 0이 되게 하므로 마저 정리하면 $E_{q^*_{ML}}[f_j(X)] = \hat{E}[f_j]$이 성립한다.
결국 MEP에서 찾은 지수족 분포의 파라미터 $\theta$의 정체가 알고보니 $\hat{\theta}_{ML}$이였다는 것이다.
보다 직관적으로 라그랑주승수를 직접 활용하여 MEP문제와 MLE문제가 서로 Primal-Dual 관계에 있음을 보일 수 있다. 이전 포스트와 같이 MEP를 Primal문제로 보았을 때 최적분포(지수족분포)를 다시 라그랑지안 식에 집어넣으면 :
$$
\begin{align}
\mathcal{L} &= \int q(x)(\theta^\top f(x) - A(\theta)) \nu(dx) - \sum_{j=1}^J \theta_j \int f_j(x)q(x)\nu(dx) + \sum_{j=1}^J \theta_j \hat{E}[f_j] \\
&= -A(\theta) + \frac{1}{n}\sum_{j=1}^J \theta_j \sum_{i=1}^n f_j(X_i) \\
&= \frac{1}{n} \sum_{i=1}^n (\theta^\top f(X_i) - A(\theta)) \\
&= \frac{1}{n} \sum_{i=1}^n \log q_\theta (X_i)
\end{align}
$$지수족분포의 log-likelihood가 나오며 이를 maximize하는 문제가 곧 MLE구하는 Dual문제가 된다. 게다가 MEP의 목적함수 엔트로피는 분포에 대해 Concave하기 때문에 strong duality가 성립한다(i.e. $q^*_{ME} = q^*_{ML}$). 이때 얻을 수 있는 인사이트는 분포공간에서의 최적화 문제를 파라미터공간에서의 최적화 문제로도 풀 수 있다는 것이다.
정리하자면 지수족분포로 가정하여 MLE를 구한 것이 알고보니 MEP철학에서 최적의 분포를 찾은 것과 동일하며 반대로 MEP의 솔루션을 구하는 입장에서는 MLE를 구하는 것으로 해결할 수 있다.
'인공지능-통계학의 다양한 주제' 카테고리의 다른 글
[Exponential Family] 1. Maximum Entropy Principle (0) | 2023.08.02 |
---|---|
[Exponential Family] 0. 서론 (0) | 2023.08.02 |
[Information Bottleneck] 4. IB의 의의와 필자 생각 (0) | 2023.07.19 |
[Information Bottleneck] 3. Generalization of Minimal Sufficient Statistics (0) | 2023.07.18 |
[Information Bottleneck] 2. Statistics (0) | 2023.07.18 |