하지만, $\alpha$와 $\sigma$ 같은 t와 직접적 관련이 없는 conditioning variable이 존재함
이를 integrate-out 해내기 위해서 hyper-prior로 p($\alpha$), p($\sigma^2$)를 상정하고 식을 정리함
Full posterior over nuisance variables($\alpha$, $\sigma$)
$\alpha$와 $\sigma^2$를 예측하도록 하여, nuisance variable을 한번에 예측하도록 하는 posterior 식을 구한 것임
이를 제외하게 되면 최종적으로 t와 t(*)의 간단한 식을 구할 수 있음
분모 p(t)는 w, $\alpha$, $\sigma^2$에 의해 marginalized된 확률 값을 의미
p(t)
- Practical Bayesian Prediction
앞선 정리에 따라, regression model에서의 Bayesian inference는 다음과 같이 정리됨
Full posterior를 prior로 활용하고 integrate-out하여 원하는 target p(t*|t)를 구하고자 함
그러나, p(w, $\alpha$, $\sigma^2$|t) 또는 p(t*|t)는 계산이 매우 어려움
따라서, Full posterior의 연산에 Approximation technique을 활용함 -> 대표적으로 4가지 method를 제안함
Type-|| maximum likelihood
Laplace's method
Variational techniques
Sampling
-> 이들 중 Type-|| maximaum likelihood를 활용해 intractable 변수들에 대한 Approximation of integration을 수행함
- Type-|| maximum likelihood Approximation
확률의 product rule을 활용하면, 이상적인 Full posterior는 아래와 같이 쓰여짐
이때, 우항의 first term은 weight postrior로 이전에 살펴보았음(normal을 따르는 값). 따라서, 우항의 second term이 우리의 approximation 대상이 됨. 이는 아래 값을 최대화하는 $\alpha$,$\sigma^2$을 찾는 것과 같음
이때, p($\alpha$)와 p($\sigma^2$)은 uninformative prior(uniform distribution)을 가정
최적의 $\alpha$와 $\sigma^2$을 구하는 과정
이렇게 최적의 $\alpha$,$\sigma^2$을 찾아낸 상태에서, Predictive distribution은 아래와 같이 쓸 수 있음
기존에 analytical한 computation이 어려웠던 2번째 term이 이제는 Gaussian 분포를 따름을 알 수 있음
따라서 approximate predictive distribution은 아래와 같이 다시 쓰일 수 있음
- Ockham's Razor
"Model should be no more complex than is sufficient to explain the data"
Bayesian procedure은 너무 심플하거나 너무 복잡한 모델에는 낮은 확률을 부여하면서, 위의 철학을 잘 따름
$\alpha$ 값에 따른 model의 marginal probability
$\alpha$값에 따라서 model의 complexity를 조절할 수 있음을 의미
- Summary of Inference Procedure
Initialize all {$\alpha$} and $\sigma^2$
Compute weight posterior sufficient statistics $\mu$ and $\sum$
Compute all {$\gamma$}, then re-estimate {$\alpha$}
Repeat from 2. until convergence
Delete weights for which optimal $\alpha$ goes infinity
Make predictions for new data via the predictive distribution computed with the converged $\alpha$ and $\sigma^2$
* Relevance Vector Machine (RVM)
베이지안 추론기법을 사용
회귀와 확률적 분류를 위한 parsimonious solution(최적 해)을 가짐
SVM과 같은 함수식을 사용하지만 확률론적 분류를 제공 -> SVM은 train set의 크기에 따라 support vector의 수가 선형적으로 증가하는 반면, RVM은 그에 비해 더 적은 솔루션을 제공한다는 강점을 지님(계산 과정이 간단해짐)
SVM의 cost 상수 C 역할로 상수 $\gamma$를 조정하여 최적의 상수조건 선택
베이지안 이론을 통해 분류 확률을 예측하여 임계값에 따라 집단을 임의로 분류 가능(초평면을 직선 분리하여 집단 자체를 직관적으로 예측/분류하는 SVM보다 더 많은 정보 제공)
역행렬 계산이 포함되므로, 역행렬을 구하지 못하는 조건에서는 분석 불가능
4. Conclusion
- Bayesian ML은 non-linear한 model의 approximation에 집중해옴 -> neural network, hybrid Monte Carlo 등
-> 최근에는 Bayesian technique을 기반으로 많은 kernel methods가 주의를 끌고 있음(SVM의 기여와 함께)
- 흔히 알고 있는 빈도 기반 확률과는 다른, 새로운 관점을 알 수 있었음
- 이론적인 연산을 기반으로 추론 기법에 접근하다보니, 충분한 수리적 배경이 필요함을 느낌
댓글 영역