본 게시물은 KAIST 문일철 교수님의 기계학습 유튜브 강좌를 참고하여 만들었습니다.
Week1. Variational Inference : 12~ 18
목적: LDA에 대해 VI 유도를 위해 Dirichlet Distribution(이하 D.D)의 특성과 pdf를 아는 것이 중요
𝜽의 pdf는 DD에서 샘플링된 것으로 나온 𝛼에 기반
다음과 같은 조건이 만족이 되는 상황에서 DD가 정의됨.
→ x: probability simplex 잘 만족 ⇔ 이 분포에서 나온 x들은 확률로서 이용될 수 있다.
→ 이 x를 바로 multinomial distn의 parameter로 이용 ← DD에서 그 파라미터를 생성!
그래서 나머지 두개가 결정되면 x3은 자동적으로 결정되니, 두가지 축(x1, x2)뿐이 없음!
목적: VI에서 쉬운 계산을 위해 알아야함! → 이 EF 특징 활용하면, 쉽게 계산 가능.
x의 pdf가 다음과 같이 표현되면 지수족에 속한다.
→ log normalizer 미분하면, 충분통계량의 기댓값(적률)이 된다.
Varational distribution의 목적: 복잡한 함수를 단순화된 형태로 표현하기 위함
기존 LDA에서 𝜽와 z의 분포를 바로 찾기가 어려워서, 복잡한 모델을 approximation 하는 Variational Distribution(이하 V.D) 가정을 넣는다.
𝛾와 𝜙라는 variational parameter를 도입하여 V.D를 가정한다.
<Variational inference 과정>
Evidence Lower Bound 목적: parameter optimization을 위함
Variational parameter를 도입하여 ELBO를 표현하면 다음과 같다
이는 위의 사진의 식처럼 3개의 Expectation(➀➁➂) 과 하나의 Entropy(➃)로 쪼개진다.
이를 그대로 활용하기엔 계산이 어려워 일반적인 수식의 형태로 나타낸다.
<Learning parameters of the evidence lower bound>
ELBO로 파라미터를 최적화시키는 식이다.
이는 파라미터마다 최적화 시에 필요한 정보관계를 나타낸 것이다.
서로서로 상호연관이 되기에 coordinate update가 필요하다. 이는 Variational Inference 관점에서 두 가지로 나누어볼 수 있다.
내부단계를 E, 외부단계를 M으로 보아 variational optimization의 EM 알고리즘으로도 볼 수 있다.
Week 3 Gaussian Process (37~40) (0) | 2023.05.18 |
---|---|
[2주차 Forward, Rejection, Importance Sampling & Markov Chain, MCMC] - 목진휘 (0) | 2023.03.22 |
[1주차 MLE, MAP & Entropy] - 목진휘 (0) | 2023.03.22 |
[2주차 Hidden Markov Model Part1]- 박상준 (0) | 2023.03.20 |
[1주차 K-mean clustering & Gaussian Mixture Model 신인섭] (0) | 2023.03.12 |
댓글 영역