인공지능-통계학의 다양한 주제

[Exponential Family] 1. Maximum Entropy Principle

Outstanding Pigeon 2023. 8. 2. 15:03

 

우리에게 도메인 $\mathcal{X}$에서 모분포 $p$로부터 i.i.d하게 생성된 샘플들 $X_1,...,X_n$이 주어지고 분석에 꼭 필요한 통계량들 $f_1,...,f_J$도 정의되어있다고 가정하자. 모형분포 $q$로 모분포를 근사하고자 할 때 - 모분포에 대한 정보가 아무것도 알려져있지 않은 상태에서 샘플들만 활용해야한다면 어떻게 해야할까? (샘플 수가 $\mathcal{X}$을 충분히 커버할만큼 많다면 히스토그램과 비슷하게 근사할 수 있겠지만 - 현실은 주로 그렇지 않듯 그런 상황은 아니라고 하자.)

최소한으로 지켜야할 기준으로써 먼저 모분포에서 기대할 수 있는 통계량이 모형분포에 그대로 담겨야할 것이다. 비록 모분포의 기대값을 직접 계산할 수 없지만 empirical average로 근사한 값으로 대체할 수 있다 : 
$$
\begin{align}
E_q[f_j(X)] &= \hat{E}[f_j] \\
    \text{where}\quad E_p[f_j(X)] &\approx \hat{E}[f_j] = \frac{1}{n}\sum_{i=1}^n f_j(X_i)
\end{align}
$$이에 따라 우리가 고려할 수 있는 분포족은 다음과 같이 축약된다 :
$$
\mathcal{P} := \{\, q\,|\, E_q[f_j(X)] = \hat{E}[f_j],\, \forall j \}
$$그러나 위와 같은 제약을 만족하는 분포들만 해도 무한정으로 많을텐데 이들 중에서 무엇을 써야할 것인가? 모분포에는 $\{f_j\}_{j=1}^J$의 기대값들 이외에도 정말 다양한 정보들이 있을텐데 - 그 정보들을 explicit하게 알지 못하더라도(또는 굳이 알아낼 필요 없이) 어떻게든 implicit하게 모형분포에 담아낼 수 있을까?


흥미롭게도 Maximum Entropy Principle(MEP)에 의하면 꼭 담아야할 정보를 제외한 잔여 정보들에 대해서는 말 그대로 엔트로피를 최대로 부여하는 분포를 선택해야한다는 것이다 :
$$
q^\star := \arg\max_{q \in \mathcal{P}} \;H(q),\quad
\text{ where }H(q) = E_q[-\log q(X)]
$$불확실성을 최대로 부여하는 분포를 선호한다는 것은 균등분포에 가까운 분포를 찾는 것으로도 볼 수 있다 :
$$
\begin{align}
q^\star_{IP} &= \arg\max_{q \in \mathcal{P}} \;H(q) \\
&=\arg\min_{q \in \mathcal{P}} \;-H(q) - E_q[\log u(X)] \\
&=\arg\min_{q \in \mathcal{P}}\; D(q\|u) \\
\text{where }&D(q\|p) = E_q\left[\log \frac{q(X)}{p(X)}\right]
\end{align}
$$(이때 $u(X)$는 고려할 수 있는 분포들 중 가장 큰 support에 대해 확률이 균등하게 퍼져있는 분포이다.)

좀 더 구체적으로는 균등분포$u$를 분포공간 $\mathcal{P}$에 가장 가깝게 정보사영(Information Projection, IP)시키는 최적의 분포를 찾는 과정이겠다.

Rough하게 정리하자면 - 샘플들의 통계량을 살리면서 동시에 모든 support(샘플이 없는 support도 포함!)에 최대한 균등한 확률을 부여하므로 과적합하지 않는 generalization을 꾀한다고 볼 수 있을 것이다. (주관적인 해석을 최대한 배제하기 위해 noninformative prior을 선호하는 objective bayeisan의 철학과도 비슷하다.) 이에 따라 MEP의 최적의 모형분포는 비록 모분포의 모든 특성을 모형분포에 다 담지 못할지라도, 최소한 우리에게 필요한 통계량 특징만큼은 모분포와 일치시키고 그 이외의 특징에 대해 robust한 - 불확실성에 '관대'하면서 '알짜배기'만 가진 분포라는 것이다. 모분포와 동일하지 못해도 쓸모 있는 모형이라는 점에서 George Box의 all models are wrong some are useful과 맥락이 비슷하다고 느껴진다.

어쨋든 - 놀랍게도 위와 같은 성질을 가지는 최적의 분포가 바로 지수족 분포이다 : 
$$
\begin{align}
q^*_{IP}(x) &= \exp(\theta^\top f(x) - A(\theta)), \\
\text{where }A(\theta)&=\log \int \exp(\theta^\top f(x)) \nu(dx) \\ \text{and }&E_{q^*_{\theta}}[f_j(X)] = \hat{E}[f_j],\; \forall j
\end{align}
$$유도하기 위해 MEP를 다시 재표현하면
$$
\begin{align}
\text{maximize } - &\int q(x)\log q(x) \nu(dx) \\
\text{constrained to }&\int f_j(x)q(x)\nu(dx) = \hat{E}[f_j], \;\forall j, \\
&\int q(x)\nu(dx) = 1, \\
&\;q(x) \geq 0, \;\forall x\in\mathcal{X}, 
\end{align}
$$이에 따라 라그랑지안 함수는 다음과 같이 표현된다 :
$$
\begin{align}
\mathcal{L}(q,\theta,\phi) = &\int q(x)\log q(x) \nu(dx) + \sum_{j=1}^J \theta_j \left(  \hat{E}[f_j]-\int f_j(x)q(x)\nu(dx) \right)\\ 
&+ \theta_0 \left( \int q(x)\nu(dx) -1 \right) - \int \phi(x)q(x)\nu(dx)
\end{align}
$$여기서 어떤 함수 $\eta(x)$를 활용하여 $\partial\mathcal{L}/\partial q=0$ 계산하면
$$
\begin{align}
\left[ \frac{d}{d\epsilon} \mathcal{L}(q+\epsilon \eta,\theta,\phi) \right]_{\epsilon=0} &= \int (\eta + \eta \log q) \nu(dx) - \sum_{j=1}^J \theta_j\left( \int f_j \eta \nu(dx) \right) +\theta_0 \int \eta \nu(dx) - \int \phi \eta \nu(dx) \\
&= \int \left( 1+\log q - \sum_{j=1}^J \theta_jf_j + \theta_0 - \phi \right) \nu(dx) \\
&=0
\end{align}
$$어떤 함수 $\eta$에 대해서든 항상 성립하므로 아래와 같은 식이 만족해야하며
$$
1+\log q - \sum_{j=1}^J \theta_jf_j + \theta_0 - \phi  = 0
$$이에 따라 솔루션은 다음과 같다 :
$$
q^*_{ME}(x) = \exp(\theta^\top f(x) -\theta_0-1+\phi(x))
$$그런데 지수함수에 따라 항상 $q(x)>0$이므로 complementary slackness로 인해 항상 $\phi(x)=0$이다. 이때
$$
\theta_0+1 = \log \int \exp(\theta^\top f(x)) \nu(dx)
$$만족해야하고 $A(\theta)=\theta_0+1$로 두면 된다.


따라서 데이터의 생성분포를 지수족분포로 가정한다는 것의 당위성이 MEP에 있으며 과거부터 성공적으로 쓰일 수 있는 요인이라고 생각된다. 데이터 하나하나 수집하기 정말 비싸고 어려운데, 관측하지 못한 데이터에 대해서도 어느 정도 robustness를 보장해준다니...! 그렇기에 여기저기 여러 상황에 많이 쓰이는 모형이 지수족모형이지 않을까? 물론 여전히 제약이 있는건 - 우리의 관심사 통계량의 empirical 값이 최소한 모집단에 consistent할 정도로 데이터가 충분해야한다는 점이 조건이고 그게 어느 정도 믿음의 영역이긴 하지만, 이것만으로도 아주 감사하지 아니한가...!

 

그렇다면 $\theta$의 구체적인 의미는 무엇일까? 단순히 지수족 분포의 파라미터로 볼 수 있지만 라그랑주 승수로써 제약식 $E_{q^*_{\theta}}[f_j] = \hat{E}[f_j]$을 만족하게 하는 점에서 매우 특별한 의미를 갖는다. 이 부분에 대해 다음 섹션에서 알아보도록 하자.

 

Extra : 
필자는 MEP의 철학을 정말 좋아하는데 - 딱 그리스도인이 가져야할 마음가짐이라 생각되었기 때문이다. 우리가 특정 사람에 대해 확실하게 알고있는 정보 이외에 소문으로 어떤 불확실한 정보를 들었다고 가정해보자. (혹은 굳이 소문이 아니더라도 그 사람의 행동을 관측함에 따라 우리 머리속에 추측되는 불확실한 정보가 있다고 해보자.) 그 불확실함에 대해 우리가 취할 수 있는 태도에는 크게 두가지가 있다고 생각한다 :

1. 불확실한 정보에 대해 미리 판단하는것. 빠른 가치판단은 불확실함에 대한 우리 안의 불편함을 없애기에 최적이지만 선입견이 쌓이기에도 매우 최적이다. 어떤 정책을 지지해? 그러면 우파네 좌파네 하는 느낌이랄까...
2. 불확실한 정보가 확실해지기 전까지 기다리기, 하지만 현실에는 불확실함이 해소되기 어려운 상황이 굉장히 많은데 그렇다면 굳이 섣부른 판단으로 불확실성을 줄이지 말고 있는 그대로 인정하는것. 

두번째 선택지가 불확실함에 대한 고통을 감내해야한다는 점에서 첫번째보다 훨씬 어렵다. 그렇지만 두번째 선택지만 고르는 세계가 존재한다면 그곳은 얼마나 살기 좋은 곳일지 상상해본다. 더 나아가 서로가 서로의 허물이 뚜렷이 보인다 할지라도 배려해주고 인격적 관계 속에 배려의 조언/비판(not 비난)을 해간다면 그게 바로 이 땅에 실현해가는 천국이라 생각한다.