인공지능-통계학의 다양한 주제

[Information Bottleneck] 0. 서론

Outstanding Pigeon 2023. 7. 18. 14:09

데이터과학의 큰 관심사 중 하나는 데이터를 요약, 압축하여 의미있는 정보로 가공하고 이에 기반하여 해석이나 예측을 하는 것이다. 예를 들어 평균을 통해 청소년의 나이대별 키와 몸무게 추세를 파악하거나 인공지능 모델의 파라미터를 배우는 것을 포함할텐데 - 모두 큰 범주에서 raw 데이터를 ''의미있는'' 통계량(statistic)으로 압축하는 과정을 거친다.

 

이때 ''의미있는'' 통계량이란 무엇을 의미할까? 정말 다양한 방면에서 얘기할 수 있겠지만 Information Bottleneck(IB)의 관점을 통해 알아보고자 한다.

(주의 : 엄밀한 수식유도와 증명은 작성하지 않고 직관적 이해를 위한 내용 위주로 작성하였다.)