분류 전체보기 8

[Exponential Family] 2. Duality between MEP and MLE

MEP로 구한 지수족 분포의 파라미터 $\theta$를 파악하기 앞서 먼저 최대우도추정하는 문제를 되짚어보자. 주어진 샘플들 $X_1,...,X_n$을 지수족 분포 $q_\theta$로 모델링하여 MLE구하는 문제를 식으로 정리해보면 : $$ \begin{align} q^*_{ML}(x) &= \arg\min_{q \in \theta}\; \sum_{i=1}^n \left( -\log q_\theta (X_i) \right) \\ &= \arg\min_{q \in \theta}\; E_{\hat{p}}\left[-\log q_{\theta}(X) \right] \\ &= \arg\min_{q \in \theta}\; D(\hat{p}\|q_\theta) + H(\hat{p}) \\ &= \arg\min_..

[Exponential Family] 1. Maximum Entropy Principle

우리에게 도메인 $\mathcal{X}$에서 모분포 $p$로부터 i.i.d하게 생성된 샘플들 $X_1,...,X_n$이 주어지고 분석에 꼭 필요한 통계량들 $f_1,...,f_J$도 정의되어있다고 가정하자. 모형분포 $q$로 모분포를 근사하고자 할 때 - 모분포에 대한 정보가 아무것도 알려져있지 않은 상태에서 샘플들만 활용해야한다면 어떻게 해야할까? (샘플 수가 $\mathcal{X}$을 충분히 커버할만큼 많다면 히스토그램과 비슷하게 근사할 수 있겠지만 - 현실은 주로 그렇지 않듯 그런 상황은 아니라고 하자.) 최소한으로 지켜야할 기준으로써 먼저 모분포에서 기대할 수 있는 통계량이 모형분포에 그대로 담겨야할 것이다. 비록 모분포의 기대값을 직접 계산할 수 없지만 empirical average로 근사한 ..

[Exponential Family] 0. 서론

데이터과학의 핵심 과제 중 하나는 관심있는 시스템에 대해 외부의 노이즈에 불변하는 정보를 얼마나 효율적으로 추출하는가가 있다. 데이터의 프로세스를 담아내기 위한 과정에서 모형의 함수와 분포에 대한 가정을 하게 되는데 - 특히 예전부터 지금까지도 자주 쓰이는 분포가 지수족분포(exponential family)이고 파라미터를 추정하기 위해 최대우도추정(Maximum Likelihood Estimation, MLE)이나 그의 variant들을 직접 활용하거나 알고리즘 안에 implicit하게 내재되어있는 경우 또한 많다. 인공지능에서 지수족분포가 안쓰이는 경우가 많긴 하지만 - 여전히 생물통계나 사회과학 등에서는 자주 볼 수 있는데 여기서 드는 궁금증은 지수족분포가 널리 쓰일 수 있는 당위성이 무엇이냐는 것..

[Information Bottleneck] 4. IB의 의의와 필자 생각

12. IB를 직접 구현하는 방법들이 존재하지만 특정 모형(특히 compression함수가 포함된 경우)이 왜 잘 작동하는지 알기 위한 돋보기로써 쓰이기도 한다. 가령 신경망 모형이 잘 작동하는 이유를 IB도구를 활용하여 알아보는 논문들이 그런데, 관심있는 분들은 다음의 논문을 참고해도 될 것 같다 : (1) Tishby, Naftali, and Noga Zaslavsky. "Deep learning and the information bottleneck principle." 2015 ieee information theory workshop (itw). IEEE, 2015. (2) Shwartz-Ziv, Ravid, and Naftali Tishby. "Opening the black box of de..

[Information Bottleneck] 3. Generalization of Minimal Sufficient Statistics

9. 최소충분통계량의 정의는 다음과 같다 : $T(X)$ is a minimal sufficient statistic if and only if $T(X)$ is sufficient and if $f(X)$ is sufficient, then there exists a function $g$ such that $T(X)=g(f(X))$. DPI를 생각해 본다면 아주 직관적인 정의임을 알 수 있다 : 그 어떤 충분통계량 $f(X)$을 가져오더라도 $T(X)$는 항상 보다 더 요약된 형태이면서 필요한 정보는 다 가지고 있다는 것이다. 또한 최소충분통계량은 다음과 같은 최적화 문제의 솔루션으로도 볼 수 있는데 : $$ T(X) = \underset{f(X)\, : \,I(\theta;f(X))=I(\theta..

[Information Bottleneck] 2. Statistics

5. Markov chain : 정의만 놓고 얘기한다면 마코프 성질을 만족하는 확률과정을 뜻하지만, 여기서는 아래 정의에 한정해서 바라보자 : Random variables $X,Y,Z$ form a Markov chain $X \rightarrow Y \rightarrow Z$ if the joint probability can be written as $$ p(x,y,z) = p(x)p(y|x)p(z|y). $$ $Z$의 조건부 분포가 오직 $Y$에만 의존하고 $X$와는 독립이다라는 뜻이다. 이로부터 아래 이론들이 도출될 수 있다 : (1) If $X\rightarrow Y$ and $Z=f(Y)$, then $X \rightarrow Y \rightarrow Z$. (2) Data-processin..

[Information Bottleneck] 1. Entropy

Information Bottleneck(IB)를 이해하는 데 있어 중요한 수식과 이론들을 먼저 짚어보자. 하나하나 모두 멋진 이야기를 해주고 있다 :) 1. Entropy : 데이터 $X$에 대해 기대할 수 있는 정보량/불확실성 $$ H(X)=E_{p(X)}[-\log p(X)]=\sum_{x} \left(-\log p(x)\right)p(x) $$ 이 표현의 기원에 대해서는 Shannon이 정의한 몇몇 공리들에 의해 만들어졌지만, 여기서는 간단히 수식만 살펴보며 의미를 되새기자 : (1) $\log p(X)$앞에 붙은 음수를 보자면 - 어떤 사건이 발생할 확률이 낮을수록 그 사건에 대한 정보량이 높다고 평가하는 역할을 한다. 자주 마주하고 익숙한 데이터일수록 우리가 파악해야 할 정보량이 적다는 걸 암..

[Information Bottleneck] 0. 서론

데이터과학의 큰 관심사 중 하나는 데이터를 요약, 압축하여 의미있는 정보로 가공하고 이에 기반하여 해석이나 예측을 하는 것이다. 예를 들어 평균을 통해 청소년의 나이대별 키와 몸무게 추세를 파악하거나 인공지능 모델의 파라미터를 배우는 것을 포함할텐데 - 모두 큰 범주에서 raw 데이터를 ''의미있는'' 통계량(statistic)으로 압축하는 과정을 거친다. 이때 ''의미있는'' 통계량이란 무엇을 의미할까? 정말 다양한 방면에서 얘기할 수 있겠지만 Information Bottleneck(IB)의 관점을 통해 알아보고자 한다. (주의 : 엄밀한 수식유도와 증명은 작성하지 않고 직관적 이해를 위한 내용 위주로 작성하였다.)