상세 컨텐츠

본문 제목

[논문 리뷰 스터디] Denoising Diffusion Probabilistic Models

심화 스터디/논문 리뷰 스터디

by 원준천 2023. 5. 31. 16:25

본문

 

작성자: 16기 천원준

 

https://arxiv.org/abs/2006.11239

 

Denoising Diffusion Probabilistic Models

We present high quality image synthesis results using diffusion probabilistic models, a class of latent variable models inspired by considerations from nonequilibrium thermodynamics. Our best results are obtained by training on a weighted variational bound

arxiv.org

 

Introduction

  • Diffusion 모델은 시간에 따라 데이터에 가우시안 노이즈를 조금씩 추가하고 그걸 복원하는 과정을 통해 데이터를 생성하는 생성모델
  • Variational inference를 사용해 학습된 parameterized Markov Chain 모델

 


Background

  • X0는 원본 데이터, XT는 최종 노이즈가 추가된 데이터, Xt는 노이즈가 추가되고 있는 상태의 데이터
  • Diffusion model은 결국 reverse process를 학습하는 모델

Forward/Diffusion process

  • 원본 이미지가 x0이라고 할때 이미지에 노이즈를 추가하는 과정은 q
  • t 시간에 따라서 노이즈를 점차 추가한 모델은 q(xt | xt-1)로 표현
  • 이런식으로 노이즈를 추가하다 보면 완전히 파괴된 데이터가 완성되는데 이를 xT라고 표현
  • Conditional distribution q(xt | xt-1) 는 다음과 같이 표현ßt는 variance schedule이고 xt-1의 정보를 지우고 노이즈가 추가됨

  • √1-ß로 스케일링하는 이유는 발산을 막기 위함

 

Reverse process

  • 반대로 노이즈로 파괴된 xT에서 노이즈를 지워 다시 x0으로 가는 과정
  • p(xt-1 | xt)로 표현

  • xt에 대하여 xt-1 을 예측할 수 있으면 결국 x0도 예측 가능
  • How? 평균과 분산을 파라미터로 가지는 가우시안 노이즈 N을 통해서
  • 결국 우리는 수식에서 평균 뮤세타와 분산 시그마 세타를 예측해야함

 

Training

  • Variational inference를 사용함
  • 생성 이미지의 log likelihood를 최대화 (= data distribution에 맞는 이미지인가)
  • 이를 반대로 negative log likelihood를 최소화 하는 방법을 사용

Loss Function

  • LT: Bt를 학습하기 위한 regularization term
  • Lt-1: Reconstruction term. 노이즈가 많은 이미지를 보고 노이즈가 덜한 이미지를 예측하기 위함
  • L0: 이미지가 생성되기 마지막 단계의 loss

Diffusion models and denoising autoencoders

Forward process and LT

  • Forward process의 variance ßt는 reparameterization으로 학습 가능하지만 상수로 취급
  • 따라서 LT는 무시해도 된다

 

Reverse process and L1:T-1

  • 이때 sigma(xt,t) = ∂^2_t I 와 같고 이는 time dependent constant 이므로 학습에 관여하지 않는다
  • 따라서 평균인 뮤세타만 보면 됨
  • 다시 Lt-1을 표현하면 다음과 같다

  • 위 식에 다음 수식을 적용하면

  • 결국 식10으로 정리 가능
  • 이때 뮤세타를 직접 예측하지 않아도 되는데 뮤를 입실론으로 표현 가능하기 때문
  • 따라서 noise epsilon을 통해 t에 맞게 샘플링한다 (디노이징)

 

 

Data scaling, reverse process decoder and L0

  • 이미지 데이터가 [-1,1]에 linearly scaled 된 0부터 255 사이의 정수로 표현되었다고 가정
  • 따라서 다음 수식을 적용

 

 

 

Simplified Training objective

  • 단순화된 loss function이 좀 더 좋은 결과를 보임
  • 매우 작은 t와 큰 t에서 모두 학습 가능하기 때문

 

관련글 더보기

댓글 영역