상세 컨텐츠

본문 제목

[논문 리뷰 스터디] Bayesian Inference: An Introduction to Principles and Practice in Machine Learning

심화 스터디/논문 리뷰 스터디

by 안녕윤기 2023. 3. 30. 15:22

본문

작성자: 16기 민윤기

0. Prerequisite

* Bayes' rule

베이즈 정리

  - 사전확률(prior)로부터 사후확률(posterior)을 구해가는 과정

  - 불확실성 하에서의 의사결정문제를 다룰 때 유용할 수 있음

  - 위 수식에 따르면, Data가 주어짐에 따른 theta의 확률분포 update를 posterior로 구할 수 있음

 

'주사위를 던져서 3이 나오는 확률은 1/6 이다.'

 

빈도론: 1000번을 던지면 166번, 10000번을 던지면 1666번 3이 등장한다 -> 오로지 경험적 사실만을 통해 말할 수 있는 사건이 일어나는 장기적인 확률

베이지안: 주사위를 던질 때, 3이 나온다고 1/6(16.66%) 확신할 수 있다 -> 지식이나 판단의 정도를 나타내는 수단으로써의 확률(주관적인 입장)

1. Introduction

  - ML의 관점에서, 보통은 주어진 샘플 데이터를 토대로 변수 A와 B의 관계를 살펴보는 것에 집중

    -> "A를 받았을 때, B는 무엇인가?' (조건부 확률 관점)

  - 보통의 ML model 들은 complete certainty를 갖고, 하나의 value로 결과를 제시함

  - 하지만 실제로는 ML의 기본 가정과 달리 불확실성이 내재함

    -> 즉, A와 B간의 관계를 'non-deterministic'으로 생각할 수 있음

 

  <확률론적 Framework>

  - 목표: 실제 존재하는 불확실성을 반영한 변수 간의 관계를 학습, 추론해야 함

     -> 이러한 불확실성의 반영을 위해 확률론적 개념을 Framework로 구성

     -> 이를 통해 불확실성 속에서도 합리적인 추론을 하고자 함

  - Bayes' rule을 기반으로 한 Inference framework가 'Bayesian Inference framework'

 

  Q. 한번도 시도해보지 않은 컨테스트에서 우승할 확률은?

  A. 여러 지식들을 동원해 우승에 관련된 요소들을 뽑고, 이를 통해 확률을 도출

 

<Bayesian Inference framework>

 

  - A라는 정보가 주어졌을 때, B라는 정보의 변화를 추론해내는 논리가 베이지안 추론의 핵심

  - 조건부 확률의 추정을 위해, Parameterized model의 형식을 사용하기도 함

  - 이러한 모델의 형식이 주어졌을 때, 데이터셋을 기반으로 특정 metric을 최소화하는 접근을 취함

  • Accuracy를 metric으로 사용할 경우, Maximization을 취함
  • Loss를 metric으로 사용할 경우, Minimization을 취함

  - Metric 최적화의 목적은 곧 모수(w=가중치)의 최적값을 찾아내는 것

  - B의 값은 A뿐만 아니라, w에 의해 의존적으로 결정됨 -> w에 대한 distribution을 추론하는 것도 중요한 과제

 

 (장점)

  - 관련 없는 변수들을 모두 뽑아내면서 'Orkham's Razor'가 구현됨

    -> 자동적으로 불필요한 복잡성 없이 데이터를 최대한 심플한 모델로 충분히 설명하려고 함

 (단점)

  - 특정 변수들을 'integrating out' 하는 과정이 intractable(다루기 힘든)함

  - 이 경우, Approximation을 해야하므로 해석학적으로 정확한 해답을 찾기는 어려움

추론 대상에 대한 사전분포를 알고, 데이터에 대한 적절한 가정(likelihood)만 할 수 있다면, 이로부터 사후분포에 대해 추론할 수 있다.
-> 관측되지 않은 데이터에 대해, 알고 있는 것으로 추론 대상에 대해 밝히는 것

2. From Least-Squares to Bayesian Inference

  - 목적: new data에 대한 좋은 예측을 보이는 모델(w)을 찾는 것

샘플 데이터_tn은 target variable

  • 단순한 linear 모델은 sin 함수의 특성 상, 좋지 않음 -> RBF 커널을 통과시키게 하여 잠재적으로는 non-linear model을 상정

  • 이때, Lease-squares approximation은 Error measure를 최소화하는 가장 전통적인 접근

타겟과 예측값과의 차이

      -> 선형대수를 활용해 'closed-form'으로 최적해를 찾아낼 수 있음

설계 행렬(design matrix) '파이'

      -> 마지막 식은 선형 회귀 모형에서 LSE를 찾아내는 식(같은 맥락으로 이해할 수 있음)

 

  - 15개의 data point로 fitting한 결과

  • Squared error는 0으로서 최소화가 되더라도, overfitting에 의한 inference의 성능은 좋지 않을 것임
  • Squared error가 0에 수렴하지 않더라도 일반화 성능을 갖춘 모델이 합리적임

  - Complexity control: Regularization

  • 데이터의 모분포가 complex보다 smooth할 것이라는 가정에서 비롯
  • Linear model framework에서는 smooth function이, complex한 경우보다 작은 weight를 가짐
  • 따라서, 작은 weight 값을 유도하고자 weight penalty term을 cost function에 추가하여 complex function을 조정함

weight term: Ew(w)

          -> weight term에 대한 강도를 조정해주는 하이퍼파라미터 람다(데이터 fitting의 강도 조절)

L2 norm을 활용한 term이 일반적
람다에 따른 validation error 변화

  - A probablilistic Regression Framework

  • 지금까지는 특정한 값 t를 예측하도록 하는 접근(parameter w가 정해짐)
  • 이러한 접근에서 벗어나, t를 하나의 variable로 보고 그 분포를 예측하도록 하는 regression framework를 상정

        -> MLE method: 확률적인 시각으로 본 least-squares 접근이 바로 ML

t의 Gaussian 분포 따름을 가정

  • 이를 통해 얻는 w의 최적화 값은 LS Method로 얻은 w와 같게 되고, overfitting에서 자유로울 수 없음 -> Bayesian prior활용

- Specifying a Bayesian Prior

  • 앞선 overfitting을 방지하는 방법
  • 보통은 zero-mean gaussian prior을 상정 -> 보다 smooth function(작은 weights)가 선호되도록 하는 것과 같은 맥락
  • 알파는 inverse variance를 나타내는 하이퍼파라미터로, penalty regularization term을 조절하는 람다와 같은 역할

- Posterior Inference: 앞서 single point esimate로 w를 구해냈다면, posterior 분포로서 w를 추정할 수 있음

각각의 L과 prior는 gaussian 따름을 가정

  • w의 single value가 아닌, 모든 possible values의 분포를 추정한다는 점에서 의의가 있음.

posterior 표현식
뮤와 시그마 모두 closed-form으로 결정됨

- Illustration of Sequential Bayesian Inference

  • 결국 Bayesian inference는 posterior의 update되는 과정으로 이해할 수 있음

-> t1에서 구한 posterior는 t2, t3 입장에서 prior로 작용하게 됨 -> 새로운 likelihood를 구하고, 총 세 가지 샘플 순차적으로 보았을 때 최종적인 posterior를 구함


3. Marginalization and Orkham's Razor

  - Bayesian Method의 가장 독창적인 특징, 'Marginalization'.

  - 성가신(nuisance) 변수들을 'integrate-out' 해냄

  • Target t에 대해 예측을 하기 위해서, True Bayesian의 접근은 불확실한 변수 w에 대한 'integrate-out'을 수행

  • 좌변은 지금까지 관찰된 t를 토대로 얻은 w에 대한 불확실성을 내포함
  • 우변에서, 모든 possible values w에 대해 t(*)의 확률 값을 평균화함으로써(integrate-out) 가능해짐
  • 가장 관심있는 target인 w 조차도 좌변 식에 포함되어 있지 않음
  • 이를 통해, t(*)의 분포를 예측해내는 것임(t(*) 자체도 변수이므로)

    ($\alpha$: Bayesian Prior의 variance를 조절, $\sigma$: likelihood의 variance를 조절하는 하이퍼파라미터)

 

  - The general Bayesian Predictive Framework

  • 우리의 최종 관심사는 주어진 학습 데이터(t)를 기반으로 t(*)를 예측해내는 것

  • 하지만, $\alpha$와 $\sigma$ 같은 t와 직접적 관련이 없는 conditioning variable이 존재함
  • 이를 integrate-out 해내기 위해서 hyper-prior로 p($\alpha$), p($\sigma^2$)를 상정하고 식을 정리함

Full posterior over nuisance variables($\alpha$, $\sigma$)

  • $\alpha$와 $\sigma^2$를 예측하도록 하여, nuisance variable을 한번에 예측하도록 하는 posterior 식을 구한 것임
  • 이를 제외하게 되면 최종적으로 t와 t(*)의 간단한 식을 구할 수 있음
  • 분모 p(t)는 w, $\alpha$, $\sigma^2$에 의해 marginalized된 확률 값을 의미

p(t)

  - Practical Bayesian Prediction

  • 앞선 정리에 따라, regression model에서의 Bayesian inference는 다음과 같이 정리됨
  • Full posterior를 prior로 활용하고 integrate-out하여 원하는 target p(t*|t)를 구하고자 함

  • 그러나, p(w, $\alpha$, $\sigma^2$|t) 또는 p(t*|t)는 계산이 매우 어려움
  • 따라서, Full posterior의 연산에 Approximation technique을 활용함 -> 대표적으로 4가지 method를 제안함
  1. Type-|| maximum likelihood
  2. Laplace's method
  3. Variational techniques
  4. Sampling

    -> 이들 중 Type-|| maximaum likelihood를 활용해 intractable 변수들에 대한 Approximation of integration을 수행함

 

  - Type-|| maximum likelihood Approximation

  • 확률의 product rule을 활용하면, 이상적인 Full posterior는 아래와 같이 쓰여짐

  • 이때, 우항의 first term은 weight postrior로 이전에 살펴보았음(normal을 따르는 값). 따라서, 우항의 second term이 우리의 approximation 대상이 됨. 이는 아래 값을 최대화하는 $\alpha$, $\sigma^2$을 찾는 것과 같음

  • 이때, p($\alpha$)와 p($\sigma^2$)은 uninformative prior(uniform distribution)을 가정

최적의 $\alpha$와 $\sigma^2$을 구하는 과정

  • 이렇게 최적의 $\alpha$, $\sigma^2$을 찾아낸 상태에서, Predictive distribution은 아래와 같이 쓸 수 있음

  • 기존에 analytical한 computation이 어려웠던 2번째 term이 이제는 Gaussian 분포를 따름을 알 수 있음
  • 따라서 approximate predictive distribution은 아래와 같이 다시 쓰일 수 있음

 

  - Ockham's Razor

"Model should be no more complex
than is sufficient to explain the data"
  • Bayesian procedure은 너무 심플하거나 너무 복잡한 모델에는 낮은 확률을 부여하면서, 위의 철학을 잘 따름

$\alpha$ 값에 따른 model의 marginal probability

  • $\alpha$값에 따라서 model의 complexity를 조절할 수 있음을 의미

  - Summary of Inference Procedure

  1. Initialize all {$\alpha$} and $\sigma^2$
  2. Compute weight posterior sufficient statistics $\mu$ and $\sum$
  3. Compute all {$\gamma$}, then re-estimate {$\alpha$}
  4. Repeat from 2. until convergence
  5. Delete weights for which optimal $\alpha$ goes infinity
  6. Make predictions for new data via the predictive distribution computed with the converged $\alpha$ and $\sigma^2$

  * Relevance Vector Machine (RVM)

  • 베이지안 추론기법을 사용
  • 회귀와 확률적 분류를 위한 parsimonious solution(최적 해)을 가짐
  • SVM과 같은 함수식을 사용하지만 확률론적 분류를 제공 -> SVM은 train set의 크기에 따라 support vector의 수가 선형적으로 증가하는 반면, RVM은 그에 비해 더 적은 솔루션을 제공한다는 강점을 지님(계산 과정이 간단해짐)
  • SVM의 cost 상수 C 역할로 상수 $\gamma$를 조정하여 최적의 상수조건 선택
  • 베이지안 이론을 통해 분류 확률을 예측하여 임계값에 따라 집단을 임의로 분류 가능(초평면을 직선 분리하여 집단 자체를 직관적으로 예측/분류하는 SVM보다 더 많은 정보 제공)
  • 역행렬 계산이 포함되므로, 역행렬을 구하지 못하는 조건에서는 분석 불가능

4. Conclusion

  - Bayesian ML은 non-linear한 model의 approximation에 집중해옴 -> neural network, hybrid Monte Carlo 등

     -> 최근에는 Bayesian technique을 기반으로 많은 kernel methods가 주의를 끌고 있음(SVM의 기여와 함께)

  - 흔히 알고 있는 빈도 기반 확률과는 다른, 새로운 관점을 알 수 있었음

  - 이론적인 연산을 기반으로 추론 기법에 접근하다보니, 충분한 수리적 배경이 필요함을 느낌

관련글 더보기

댓글 영역