서론 2

[Exponential Family] 0. 서론

데이터과학의 핵심 과제 중 하나는 관심있는 시스템에 대해 외부의 노이즈에 불변하는 정보를 얼마나 효율적으로 추출하는가가 있다. 데이터의 프로세스를 담아내기 위한 과정에서 모형의 함수와 분포에 대한 가정을 하게 되는데 - 특히 예전부터 지금까지도 자주 쓰이는 분포가 지수족분포(exponential family)이고 파라미터를 추정하기 위해 최대우도추정(Maximum Likelihood Estimation, MLE)이나 그의 variant들을 직접 활용하거나 알고리즘 안에 implicit하게 내재되어있는 경우 또한 많다. 인공지능에서 지수족분포가 안쓰이는 경우가 많긴 하지만 - 여전히 생물통계나 사회과학 등에서는 자주 볼 수 있는데 여기서 드는 궁금증은 지수족분포가 널리 쓰일 수 있는 당위성이 무엇이냐는 것..

[Information Bottleneck] 0. 서론

데이터과학의 큰 관심사 중 하나는 데이터를 요약, 압축하여 의미있는 정보로 가공하고 이에 기반하여 해석이나 예측을 하는 것이다. 예를 들어 평균을 통해 청소년의 나이대별 키와 몸무게 추세를 파악하거나 인공지능 모델의 파라미터를 배우는 것을 포함할텐데 - 모두 큰 범주에서 raw 데이터를 ''의미있는'' 통계량(statistic)으로 압축하는 과정을 거친다. 이때 ''의미있는'' 통계량이란 무엇을 의미할까? 정말 다양한 방면에서 얘기할 수 있겠지만 Information Bottleneck(IB)의 관점을 통해 알아보고자 한다. (주의 : 엄밀한 수식유도와 증명은 작성하지 않고 직관적 이해를 위한 내용 위주로 작성하였다.)