[논문 리뷰 스터디] Denoising Diffusion Probabilistic Models

심화 스터디/논문 리뷰 스터디

by 원준천 2023. 5. 31. 16:25

작성자: 16기 천원준

https://arxiv.org/abs/2006.11239

Denoising Diffusion Probabilistic Models

We present high quality image synthesis results using diffusion probabilistic models, a class of latent variable models inspired by considerations from nonequilibrium thermodynamics. Our best results are obtained by training on a weighted variational bound

arxiv.org

Introduction

Diffusion 모델은 시간에 따라 데이터에 가우시안 노이즈를 조금씩 추가하고 그걸 복원하는 과정을 통해 데이터를 생성하는 생성모델
Variational inference를 사용해 학습된 parameterized Markov Chain 모델

Background

X0는 원본 데이터, XT는 최종 노이즈가 추가된 데이터, Xt는 노이즈가 추가되고 있는 상태의 데이터
Diffusion model은 결국 reverse process를 학습하는 모델

Forward/Diffusion process

원본 이미지가 x0이라고 할때 이미지에 노이즈를 추가하는 과정은 q
t 시간에 따라서 노이즈를 점차 추가한 모델은 q(xt | xt-1)로 표현
이런식으로 노이즈를 추가하다 보면 완전히 파괴된 데이터가 완성되는데 이를 xT라고 표현
Conditional distribution q(xt | xt-1) 는 다음과 같이 표현ßt는 variance schedule이고 xt-1의 정보를 지우고 노이즈가 추가됨

√1-ß로 스케일링하는 이유는 발산을 막기 위함

Reverse process

반대로 노이즈로 파괴된 xT에서 노이즈를 지워 다시 x0으로 가는 과정
p(xt-1 | xt)로 표현

xt에 대하여 xt-1 을 예측할 수 있으면 결국 x0도 예측 가능
How? 평균과 분산을 파라미터로 가지는 가우시안 노이즈 N을 통해서
결국 우리는 수식에서 평균 뮤세타와 분산 시그마 세타를 예측해야함

Training

Variational inference를 사용함
생성 이미지의 log likelihood를 최대화 (= data distribution에 맞는 이미지인가)
이를 반대로 negative log likelihood를 최소화 하는 방법을 사용

LT: Bt를 학습하기 위한 regularization term
Lt-1: Reconstruction term. 노이즈가 많은 이미지를 보고 노이즈가 덜한 이미지를 예측하기 위함
L0: 이미지가 생성되기 마지막 단계의 loss

Diffusion models and denoising autoencoders

Forward process and LT

Forward process의 variance ßt는 reparameterization으로 학습 가능하지만 상수로 취급
따라서 LT는 무시해도 된다

Reverse process and L1:T-1

이때 sigma(xt,t) = ∂^2_t I 와 같고 이는 time dependent constant 이므로 학습에 관여하지 않는다
따라서 평균인 뮤세타만 보면 됨
다시 Lt-1을 표현하면 다음과 같다

위 식에 다음 수식을 적용하면

결국 식10으로 정리 가능
이때 뮤세타를 직접 예측하지 않아도 되는데 뮤를 입실론으로 표현 가능하기 때문
따라서 noise epsilon을 통해 t에 맞게 샘플링한다 (디노이징)

Data scaling, reverse process decoder and L0

이미지 데이터가 [-1,1]에 linearly scaled 된 0부터 255 사이의 정수로 표현되었다고 가정
따라서 다음 수식을 적용

Simplified Training objective

단순화된 loss function이 좀 더 좋은 결과를 보임
매우 작은 t와 큰 t에서 모두 학습 가능하기 때문

'심화 스터디 > 논문 리뷰 스터디' 카테고리의 다른 글

[논문 리뷰 스터디] 부트스트랩을 활용한 이상원인 변수의 탐지기법_실제 적용 (0)	2023.05.31
[논문 리뷰 스터디] HOTR: End-to-End Human-Object Interaction Detection with Transformers (0)	2023.05.31
[논문 리뷰 스터디] U-Net : Convolutional Networks for Biomedical Image Segmentation (1)	2023.05.31
[논문 리뷰 스터디] FDA: Fourier Domain Adaptation for Semantic Segmentation (0)	2023.05.31
[논문 리뷰 스터디] SECOND: Sparsely Embedded Convolutional Detection (0)	2023.05.30

KUBIG 2023-1 활동 블로그

고정 헤더 영역

메뉴 레이어

메뉴 리스트

검색 레이어

검색 영역

상세 컨텐츠

본문 제목

본문

Introduction

Background

Diffusion models and denoising autoencoders

'심화 스터디 > 논문 리뷰 스터디' 카테고리의 다른 글

관련글 더보기

댓글 영역

추가 정보

인기글

최신글

티스토리툴바