지수족분포 3

[Exponential Family] 2. Duality between MEP and MLE

MEP로 구한 지수족 분포의 파라미터 $\theta$를 파악하기 앞서 먼저 최대우도추정하는 문제를 되짚어보자. 주어진 샘플들 $X_1,...,X_n$을 지수족 분포 $q_\theta$로 모델링하여 MLE구하는 문제를 식으로 정리해보면 : $$ \begin{align} q^*_{ML}(x) &= \arg\min_{q \in \theta}\; \sum_{i=1}^n \left( -\log q_\theta (X_i) \right) \\ &= \arg\min_{q \in \theta}\; E_{\hat{p}}\left[-\log q_{\theta}(X) \right] \\ &= \arg\min_{q \in \theta}\; D(\hat{p}\|q_\theta) + H(\hat{p}) \\ &= \arg\min_..

[Exponential Family] 1. Maximum Entropy Principle

우리에게 도메인 $\mathcal{X}$에서 모분포 $p$로부터 i.i.d하게 생성된 샘플들 $X_1,...,X_n$이 주어지고 분석에 꼭 필요한 통계량들 $f_1,...,f_J$도 정의되어있다고 가정하자. 모형분포 $q$로 모분포를 근사하고자 할 때 - 모분포에 대한 정보가 아무것도 알려져있지 않은 상태에서 샘플들만 활용해야한다면 어떻게 해야할까? (샘플 수가 $\mathcal{X}$을 충분히 커버할만큼 많다면 히스토그램과 비슷하게 근사할 수 있겠지만 - 현실은 주로 그렇지 않듯 그런 상황은 아니라고 하자.) 최소한으로 지켜야할 기준으로써 먼저 모분포에서 기대할 수 있는 통계량이 모형분포에 그대로 담겨야할 것이다. 비록 모분포의 기대값을 직접 계산할 수 없지만 empirical average로 근사한 ..

[Exponential Family] 0. 서론

데이터과학의 핵심 과제 중 하나는 관심있는 시스템에 대해 외부의 노이즈에 불변하는 정보를 얼마나 효율적으로 추출하는가가 있다. 데이터의 프로세스를 담아내기 위한 과정에서 모형의 함수와 분포에 대한 가정을 하게 되는데 - 특히 예전부터 지금까지도 자주 쓰이는 분포가 지수족분포(exponential family)이고 파라미터를 추정하기 위해 최대우도추정(Maximum Likelihood Estimation, MLE)이나 그의 variant들을 직접 활용하거나 알고리즘 안에 implicit하게 내재되어있는 경우 또한 많다. 인공지능에서 지수족분포가 안쓰이는 경우가 많긴 하지만 - 여전히 생물통계나 사회과학 등에서는 자주 볼 수 있는데 여기서 드는 궁금증은 지수족분포가 널리 쓰일 수 있는 당위성이 무엇이냐는 것..