데이터과학의 큰 관심사 중 하나는 데이터를 요약, 압축하여 의미있는 정보로 가공하고 이에 기반하여 해석이나 예측을 하는 것이다. 예를 들어 평균을 통해 청소년의 나이대별 키와 몸무게 추세를 파악하거나 인공지능 모델의 파라미터를 배우는 것을 포함할텐데 - 모두 큰 범주에서 raw 데이터를 ''의미있는'' 통계량(statistic)으로 압축하는 과정을 거친다.
이때 ''의미있는'' 통계량이란 무엇을 의미할까? 정말 다양한 방면에서 얘기할 수 있겠지만 Information Bottleneck(IB)의 관점을 통해 알아보고자 한다.
(주의 : 엄밀한 수식유도와 증명은 작성하지 않고 직관적 이해를 위한 내용 위주로 작성하였다.)
'인공지능-통계학의 다양한 주제' 카테고리의 다른 글
[Exponential Family] 0. 서론 (0) | 2023.08.02 |
---|---|
[Information Bottleneck] 4. IB의 의의와 필자 생각 (0) | 2023.07.19 |
[Information Bottleneck] 3. Generalization of Minimal Sufficient Statistics (0) | 2023.07.18 |
[Information Bottleneck] 2. Statistics (0) | 2023.07.18 |
[Information Bottleneck] 1. Entropy (0) | 2023.07.18 |