maximum entropy 2

[Exponential Family] 2. Duality between MEP and MLE

MEP로 구한 지수족 분포의 파라미터 $\theta$를 파악하기 앞서 먼저 최대우도추정하는 문제를 되짚어보자. 주어진 샘플들 $X_1,...,X_n$을 지수족 분포 $q_\theta$로 모델링하여 MLE구하는 문제를 식으로 정리해보면 : $$ \begin{align} q^*_{ML}(x) &= \arg\min_{q \in \theta}\; \sum_{i=1}^n \left( -\log q_\theta (X_i) \right) \\ &= \arg\min_{q \in \theta}\; E_{\hat{p}}\left[-\log q_{\theta}(X) \right] \\ &= \arg\min_{q \in \theta}\; D(\hat{p}\|q_\theta) + H(\hat{p}) \\ &= \arg\min_..

[Exponential Family] 1. Maximum Entropy Principle

우리에게 도메인 $\mathcal{X}$에서 모분포 $p$로부터 i.i.d하게 생성된 샘플들 $X_1,...,X_n$이 주어지고 분석에 꼭 필요한 통계량들 $f_1,...,f_J$도 정의되어있다고 가정하자. 모형분포 $q$로 모분포를 근사하고자 할 때 - 모분포에 대한 정보가 아무것도 알려져있지 않은 상태에서 샘플들만 활용해야한다면 어떻게 해야할까? (샘플 수가 $\mathcal{X}$을 충분히 커버할만큼 많다면 히스토그램과 비슷하게 근사할 수 있겠지만 - 현실은 주로 그렇지 않듯 그런 상황은 아니라고 하자.) 최소한으로 지켜야할 기준으로써 먼저 모분포에서 기대할 수 있는 통계량이 모형분포에 그대로 담겨야할 것이다. 비록 모분포의 기대값을 직접 계산할 수 없지만 empirical average로 근사한 ..