information bottleneck 5

[Information Bottleneck] 4. IB의 의의와 필자 생각

12. IB를 직접 구현하는 방법들이 존재하지만 특정 모형(특히 compression함수가 포함된 경우)이 왜 잘 작동하는지 알기 위한 돋보기로써 쓰이기도 한다. 가령 신경망 모형이 잘 작동하는 이유를 IB도구를 활용하여 알아보는 논문들이 그런데, 관심있는 분들은 다음의 논문을 참고해도 될 것 같다 : (1) Tishby, Naftali, and Noga Zaslavsky. "Deep learning and the information bottleneck principle." 2015 ieee information theory workshop (itw). IEEE, 2015. (2) Shwartz-Ziv, Ravid, and Naftali Tishby. "Opening the black box of de..

[Information Bottleneck] 3. Generalization of Minimal Sufficient Statistics

9. 최소충분통계량의 정의는 다음과 같다 : $T(X)$ is a minimal sufficient statistic if and only if $T(X)$ is sufficient and if $f(X)$ is sufficient, then there exists a function $g$ such that $T(X)=g(f(X))$. DPI를 생각해 본다면 아주 직관적인 정의임을 알 수 있다 : 그 어떤 충분통계량 $f(X)$을 가져오더라도 $T(X)$는 항상 보다 더 요약된 형태이면서 필요한 정보는 다 가지고 있다는 것이다. 또한 최소충분통계량은 다음과 같은 최적화 문제의 솔루션으로도 볼 수 있는데 : $$ T(X) = \underset{f(X)\, : \,I(\theta;f(X))=I(\theta..

[Information Bottleneck] 2. Statistics

5. Markov chain : 정의만 놓고 얘기한다면 마코프 성질을 만족하는 확률과정을 뜻하지만, 여기서는 아래 정의에 한정해서 바라보자 : Random variables $X,Y,Z$ form a Markov chain $X \rightarrow Y \rightarrow Z$ if the joint probability can be written as $$ p(x,y,z) = p(x)p(y|x)p(z|y). $$ $Z$의 조건부 분포가 오직 $Y$에만 의존하고 $X$와는 독립이다라는 뜻이다. 이로부터 아래 이론들이 도출될 수 있다 : (1) If $X\rightarrow Y$ and $Z=f(Y)$, then $X \rightarrow Y \rightarrow Z$. (2) Data-processin..

[Information Bottleneck] 1. Entropy

Information Bottleneck(IB)를 이해하는 데 있어 중요한 수식과 이론들을 먼저 짚어보자. 하나하나 모두 멋진 이야기를 해주고 있다 :) 1. Entropy : 데이터 $X$에 대해 기대할 수 있는 정보량/불확실성 $$ H(X)=E_{p(X)}[-\log p(X)]=\sum_{x} \left(-\log p(x)\right)p(x) $$ 이 표현의 기원에 대해서는 Shannon이 정의한 몇몇 공리들에 의해 만들어졌지만, 여기서는 간단히 수식만 살펴보며 의미를 되새기자 : (1) $\log p(X)$앞에 붙은 음수를 보자면 - 어떤 사건이 발생할 확률이 낮을수록 그 사건에 대한 정보량이 높다고 평가하는 역할을 한다. 자주 마주하고 익숙한 데이터일수록 우리가 파악해야 할 정보량이 적다는 걸 암..

[Information Bottleneck] 0. 서론

데이터과학의 큰 관심사 중 하나는 데이터를 요약, 압축하여 의미있는 정보로 가공하고 이에 기반하여 해석이나 예측을 하는 것이다. 예를 들어 평균을 통해 청소년의 나이대별 키와 몸무게 추세를 파악하거나 인공지능 모델의 파라미터를 배우는 것을 포함할텐데 - 모두 큰 범주에서 raw 데이터를 ''의미있는'' 통계량(statistic)으로 압축하는 과정을 거친다. 이때 ''의미있는'' 통계량이란 무엇을 의미할까? 정말 다양한 방면에서 얘기할 수 있겠지만 Information Bottleneck(IB)의 관점을 통해 알아보고자 한다. (주의 : 엄밀한 수식유도와 증명은 작성하지 않고 직관적 이해를 위한 내용 위주로 작성하였다.)