[논문 리뷰 스터디] Bayesian Inference: An Introduction to Principles and Practice in Machine Learning

심화 스터디/논문 리뷰 스터디

by 안녕윤기 2023. 3. 30. 15:22

작성자: 16기 민윤기

0. Prerequisite

* Bayes' rule

- 사전확률(prior)로부터 사후확률(posterior)을 구해가는 과정

- 불확실성 하에서의 의사결정문제를 다룰 때 유용할 수 있음

- 위 수식에 따르면, Data가 주어짐에 따른 theta의 확률분포 update를 posterior로 구할 수 있음

'주사위를 던져서 3이 나오는 확률은 1/6 이다.'

빈도론: 1000번을 던지면 166번, 10000번을 던지면 1666번 3이 등장한다 -> 오로지 경험적 사실만을 통해 말할 수 있는 사건이 일어나는 장기적인 확률

베이지안: 주사위를 던질 때, 3이 나온다고 1/6(16.66%) 확신할 수 있다 -> 지식이나 판단의 정도를 나타내는 수단으로써의 확률(주관적인 입장)

1. Introduction

- ML의 관점에서, 보통은 주어진 샘플 데이터를 토대로 변수 A와 B의 관계를 살펴보는 것에 집중

-> "A를 받았을 때, B는 무엇인가?' (조건부 확률 관점)

- 보통의 ML model 들은 complete certainty를 갖고, 하나의 value로 결과를 제시함

- 하지만 실제로는 ML의 기본 가정과 달리 불확실성이 내재함

-> 즉, A와 B간의 관계를 'non-deterministic'으로 생각할 수 있음

<확률론적 Framework>

- 목표: 실제 존재하는 불확실성을 반영한 변수 간의 관계를 학습, 추론해야 함

-> 이러한 불확실성의 반영을 위해 확률론적 개념을 Framework로 구성

-> 이를 통해 불확실성 속에서도 합리적인 추론을 하고자 함

- Bayes' rule을 기반으로 한 Inference framework가 'Bayesian Inference framework'

Q. 한번도 시도해보지 않은 컨테스트에서 우승할 확률은?

A. 여러 지식들을 동원해 우승에 관련된 요소들을 뽑고, 이를 통해 확률을 도출

<Bayesian Inference framework>

- A라는 정보가 주어졌을 때, B라는 정보의 변화를 추론해내는 논리가 베이지안 추론의 핵심

- 조건부 확률의 추정을 위해, Parameterized model의 형식을 사용하기도 함

- 이러한 모델의 형식이 주어졌을 때, 데이터셋을 기반으로 특정 metric을 최소화하는 접근을 취함

Accuracy를 metric으로 사용할 경우, Maximization을 취함
Loss를 metric으로 사용할 경우, Minimization을 취함

- Metric 최적화의 목적은 곧 모수(w=가중치)의 최적값을 찾아내는 것

- B의 값은 A뿐만 아니라, w에 의해 의존적으로 결정됨 -> w에 대한 distribution을 추론하는 것도 중요한 과제

(장점)

- 관련 없는 변수들을 모두 뽑아내면서 'Orkham's Razor'가 구현됨

-> 자동적으로 불필요한 복잡성 없이 데이터를 최대한 심플한 모델로 충분히 설명하려고 함

(단점)

- 특정 변수들을 'integrating out' 하는 과정이 intractable(다루기 힘든)함

- 이 경우, Approximation을 해야하므로 해석학적으로 정확한 해답을 찾기는 어려움

추론 대상에 대한 사전분포를 알고, 데이터에 대한 적절한 가정(likelihood)만 할 수 있다면, 이로부터 사후분포에 대해 추론할 수 있다.
-> 관측되지 않은 데이터에 대해, 알고 있는 것으로 추론 대상에 대해 밝히는 것

2. From Least-Squares to Bayesian Inference

- 목적: new data에 대한 좋은 예측을 보이는 모델(w)을 찾는 것

단순한 linear 모델은 sin 함수의 특성 상, 좋지 않음 -> RBF 커널을 통과시키게 하여 잠재적으로는 non-linear model을 상정

이때, Lease-squares approximation은 Error measure를 최소화하는 가장 전통적인 접근

-> 선형대수를 활용해 'closed-form'으로 최적해를 찾아낼 수 있음

-> 마지막 식은 선형 회귀 모형에서 LSE를 찾아내는 식(같은 맥락으로 이해할 수 있음)

- 15개의 data point로 fitting한 결과

Squared error는 0으로서 최소화가 되더라도, overfitting에 의한 inference의 성능은 좋지 않을 것임
Squared error가 0에 수렴하지 않더라도 일반화 성능을 갖춘 모델이 합리적임

- Complexity control: Regularization

데이터의 모분포가 complex보다 smooth할 것이라는 가정에서 비롯
Linear model framework에서는 smooth function이, complex한 경우보다 작은 weight를 가짐
따라서, 작은 weight 값을 유도하고자 weight penalty term을 cost function에 추가하여 complex function을 조정함

-> weight term에 대한 강도를 조정해주는 하이퍼파라미터 람다(데이터 fitting의 강도 조절)

- A probablilistic Regression Framework

지금까지는 특정한 값 t를 예측하도록 하는 접근(parameter w가 정해짐)
이러한 접근에서 벗어나, t를 하나의 variable로 보고 그 분포를 예측하도록 하는 regression framework를 상정

-> MLE method: 확률적인 시각으로 본 least-squares 접근이 바로 ML

이를 통해 얻는 w의 최적화 값은 LS Method로 얻은 w와 같게 되고, overfitting에서 자유로울 수 없음 -> Bayesian prior활용

- Specifying a Bayesian Prior

앞선 overfitting을 방지하는 방법
보통은 zero-mean gaussian prior을 상정 -> 보다 smooth function(작은 weights)가 선호되도록 하는 것과 같은 맥락
알파는 inverse variance를 나타내는 하이퍼파라미터로, penalty regularization term을 조절하는 람다와 같은 역할

- Posterior Inference: 앞서 single point esimate로 w를 구해냈다면, posterior 분포로서 w를 추정할 수 있음

w의 single value가 아닌, 모든 possible values의 분포를 추정한다는 점에서 의의가 있음.

- Illustration of Sequential Bayesian Inference

결국 Bayesian inference는 posterior의 update되는 과정으로 이해할 수 있음

-> t1에서 구한 posterior는 t2, t3 입장에서 prior로 작용하게 됨 -> 새로운 likelihood를 구하고, 총 세 가지 샘플 순차적으로 보았을 때 최종적인 posterior를 구함

3. Marginalization and Orkham's Razor

- Bayesian Method의 가장 독창적인 특징, 'Marginalization'.

- 성가신(nuisance) 변수들을 'integrate-out' 해냄

Target t에 대해 예측을 하기 위해서, True Bayesian의 접근은 불확실한 변수 w에 대한 'integrate-out'을 수행

좌변은 지금까지 관찰된 t를 토대로 얻은 w에 대한 불확실성을 내포함
우변에서, 모든 possible values w에 대해 t(*)의 확률 값을 평균화함으로써(integrate-out) 가능해짐
가장 관심있는 target인 w 조차도 좌변 식에 포함되어 있지 않음
이를 통해, t(*)의 분포를 예측해내는 것임(t(*) 자체도 변수이므로)

($\alpha$: Bayesian Prior의 variance를 조절, $\sigma$: likelihood의 variance를 조절하는 하이퍼파라미터)

- The general Bayesian Predictive Framework

우리의 최종 관심사는 주어진 학습 데이터(t)를 기반으로 t(*)를 예측해내는 것

하지만, $\alpha$와 $\sigma$ 같은 t와 직접적 관련이 없는 conditioning variable이 존재함
이를 integrate-out 해내기 위해서 hyper-prior로 p($\alpha$), p($\sigma^2$)를 상정하고 식을 정리함

Full posterior over nuisance variables($\alpha$, $\sigma$)

$\alpha$와 $\sigma^2$를 예측하도록 하여, nuisance variable을 한번에 예측하도록 하는 posterior 식을 구한 것임
이를 제외하게 되면 최종적으로 t와 t(*)의 간단한 식을 구할 수 있음
분모 p(t)는 w, $\alpha$, $\sigma^2$에 의해 marginalized된 확률 값을 의미

- Practical Bayesian Prediction

앞선 정리에 따라, regression model에서의 Bayesian inference는 다음과 같이 정리됨
Full posterior를 prior로 활용하고 integrate-out하여 원하는 target p(t*|t)를 구하고자 함

그러나, p(w, $\alpha$, $\sigma^2$|t) 또는 p(t*|t)는 계산이 매우 어려움
따라서, Full posterior의 연산에 Approximation technique을 활용함 -> 대표적으로 4가지 method를 제안함

Type-|| maximum likelihood
Laplace's method
Variational techniques
Sampling

-> 이들 중 Type-|| maximaum likelihood를 활용해 intractable 변수들에 대한 Approximation of integration을 수행함

- Type-|| maximum likelihood Approximation

확률의 product rule을 활용하면, 이상적인 Full posterior는 아래와 같이 쓰여짐

이때, 우항의 first term은 weight postrior로 이전에 살펴보았음(normal을 따르는 값). 따라서, 우항의 second term이 우리의 approximation 대상이 됨. 이는 아래 값을 최대화하는 $\alpha$, $\sigma^2$을 찾는 것과 같음

이때, p($\alpha$)와 p($\sigma^2$)은 uninformative prior(uniform distribution)을 가정

이렇게 최적의 $\alpha$, $\sigma^2$을 찾아낸 상태에서, Predictive distribution은 아래와 같이 쓸 수 있음

기존에 analytical한 computation이 어려웠던 2번째 term이 이제는 Gaussian 분포를 따름을 알 수 있음
따라서 approximate predictive distribution은 아래와 같이 다시 쓰일 수 있음

- Ockham's Razor

"Model should be no more complex
than is sufficient to explain the data"

Bayesian procedure은 너무 심플하거나 너무 복잡한 모델에는 낮은 확률을 부여하면서, 위의 철학을 잘 따름

$\alpha$ 값에 따른 model의 marginal probability

$\alpha$값에 따라서 model의 complexity를 조절할 수 있음을 의미

- Summary of Inference Procedure

Initialize all {$\alpha$} and $\sigma^2$
Compute weight posterior sufficient statistics $\mu$ and $\sum$
Compute all {$\gamma$}, then re-estimate {$\alpha$}
Repeat from 2. until convergence
Delete weights for which optimal $\alpha$ goes infinity
Make predictions for new data via the predictive distribution computed with the converged $\alpha$ and $\sigma^2$

* Relevance Vector Machine (RVM)

베이지안 추론기법을 사용
회귀와 확률적 분류를 위한 parsimonious solution(최적 해)을 가짐
SVM과 같은 함수식을 사용하지만 확률론적 분류를 제공 -> SVM은 train set의 크기에 따라 support vector의 수가 선형적으로 증가하는 반면, RVM은 그에 비해 더 적은 솔루션을 제공한다는 강점을 지님(계산 과정이 간단해짐)
SVM의 cost 상수 C 역할로 상수 $\gamma$를 조정하여 최적의 상수조건 선택
베이지안 이론을 통해 분류 확률을 예측하여 임계값에 따라 집단을 임의로 분류 가능(초평면을 직선 분리하여 집단 자체를 직관적으로 예측/분류하는 SVM보다 더 많은 정보 제공)
역행렬 계산이 포함되므로, 역행렬을 구하지 못하는 조건에서는 분석 불가능

4. Conclusion

- Bayesian ML은 non-linear한 model의 approximation에 집중해옴 -> neural network, hybrid Monte Carlo 등

-> 최근에는 Bayesian technique을 기반으로 많은 kernel methods가 주의를 끌고 있음(SVM의 기여와 함께)

- 흔히 알고 있는 빈도 기반 확률과는 다른, 새로운 관점을 알 수 있었음

- 이론적인 연산을 기반으로 추론 기법에 접근하다보니, 충분한 수리적 배경이 필요함을 느낌

'심화 스터디 > 논문 리뷰 스터디' 카테고리의 다른 글

[논문 리뷰 스터디] VoxelNet: End-to-End Learning for Point Cloud Based 3D Object Detection (0)	2023.03.30
[논문리뷰 스터디] Conditional Variational Autoencoder with Adversarial Learning forEnd-to-End Text-to-Speech (0)	2023.03.30
[논문 리뷰 스터디] Densely Connected Convolutional Networks (0)	2023.03.30
[논문 리뷰 스터디] Visualizing and Understanding Convolutional Networks (0)	2023.03.30
[논문 리뷰 스터디] MediaPipe Hands: On-device Real-time Hand Tracking (0)	2023.03.29

KUBIG 2023-1 활동 블로그

고정 헤더 영역

메뉴 레이어

메뉴 리스트

검색 레이어

검색 영역

상세 컨텐츠

본문 제목

본문

0. Prerequisite

1. Introduction

2. From Least-Squares to Bayesian Inference

3. Marginalization and Orkham's Razor

4. Conclusion

'심화 스터디 > 논문 리뷰 스터디' 카테고리의 다른 글

관련글 더보기

댓글 영역

추가 정보

인기글

최신글

티스토리툴바