인공지능-통계학의 다양한 주제

[Information Bottleneck] 3. Generalization of Minimal Sufficient Statistics

Outstanding Pigeon 2023. 7. 18. 14:49

 

9. 최소충분통계량의 정의는 다음과 같다 :


$T(X)$ is a minimal sufficient statistic if and only if $T(X)$ is sufficient and if $f(X)$ is sufficient, then there exists a function $g$ such that $T(X)=g(f(X))$.

DPI를 생각해 본다면 아주 직관적인 정의임을 알 수 있다 : 그 어떤 충분통계량 $f(X)$을 가져오더라도 $T(X)$는 항상 보다 더 요약된 형태이면서 필요한 정보는 다 가지고 있다는 것이다. 또한 최소충분통계량은 다음과 같은 최적화 문제의 솔루션으로도  볼 수 있는데 :
$$
T(X) = \underset{f(X)\, : \,I(\theta;f(X))=I(\theta;X)}{\arg\min} I(X;f(X))
$$ $X$와 겹치는 정보를 최소화하되  $\theta$에 대한 충분통계량 자격을 유지하는 점에서 위의 정의와 동일한 맥락을 가진다.

아쉽게도 Pitman Koopman Darmois 이론에 의하면 지수족 분포가 아니고서는 최소충분통계량은 커녕 충분통계량도 존재하지 않는다고 한다(이때 충분통계량 중 identity function은 제외일듯?). 분명 지수족 분포는 이론적으로 매우 아름다운 성질들을 띄지만 - 그 이외의 다양한 모델링을 원하는 현대의 흐름에서 우리가 원하는 정보만 딱 뽑아주는 어떤 함수를 explicitly하게 구하게 결단코 쉽지 않은 것이다.

하지만 위의 최적화 문제의 조건을 완화하여 최소충분통계량의 기준에 가까운 통계량을 구하는 방법이 있었으니... 그것이 바로 IB이다!


10 . IB principle이 제시하는 최적화 문제는 다음과 같다 :
$$
\min_{T \,:\, I(\theta;T)\,\geq\, \gamma} I(X;T)
$$ (관련 논문들을 보면 $f(X)$ 대신 주로 랜덤변수 $T$로 표현하고 있는데 보다 general한 표현하기 위함인 듯하다. 이때 $T$의 정의가 $X$의 compressed representation로 되어있어 rough하게 $T=f(X)$로 봐도 무방할 것 같다.)

(1) 최적화의 조건이 등식에서 부등식으로 완화되었다 : 충분통계량의 조건은 만족하지 않더라도 $\theta$와 연관된 정보량을 최소한 $\gamma$보다 크게 하는 방향으로 타협되었음을 알 수 있다. 즉, $X$에서 불필요한 정보를 최대한 제거하되 $\theta$에 대한 정보 또한 최대한 유지하자는 것이다.

(2) 그러나 위와 같은 데이터 필터링 방식에는 trade-off 가 존재함도 암시한다. 라그랑주 승수로 최적화 문제를 재표현하면
$$
\;\min_{T} I(X;T) - \beta I(\theta;T) \quad s.t. \quad \beta\geq 0.
$$ $\beta$가 크면 클수록 $I(\theta;T)$를 최대화하는 문제로 전환되어 굳이 $X$를 compress할 필요가 없어지게 된다 : $T=X$일때 $I(\theta;T)$가 최대이니까. 

반대로 $\beta$가 $0$에 가까울수록 $I(X;T)$를 최소화하는 문제가 되어 $T$에 $\theta$의 정보가 아예 없어지게 된다 : $X\perp T$일때 $I(X;T)$가 최소이고 $\theta \rightarrow X \rightarrow T$에서의 DPI 때문에. 

적정 $\beta$값에서 최소충분통계량에 가까운 $T$를 찾을 수 있을 것이다.


11. 정리해보면 - 관심 있는 $\theta$에 대한 정보를 얻기 위해 데이터 $X$를 통계량 $f(X)$으로 가공하는 과정을 거치는데 이에 따라 $\theta$의 정보를 잃는 게 일반이다. 이상적으로 $\theta$의 정보를 전부 보존하면서 가장 효율적으로 압축하는 최소충분통계량이 존재하는 경우도 있었지만 지수족 분포 모형에 한정되었다. 보다 general한 모형에도 최소충분통계량에 가까운 함수를 배울 수 있게 해주는 framework가 IB이다. 

 

Reference :

- Cover, Thomas M. Elements of information theory. John Wiley & Sons, 1999.

- 강의노트 https://www.cs.cmu.edu/~aarti/Class/10704_Spring15/lecs/lec16.pdf

- Shwartz-Ziv, Ravid, and Naftali Tishby. "Opening the black box of deep neural networks via information." arXiv preprint arXiv:1703.00810 (2017).