Ho et al.가 DDPM(Denoising Diffusion Probabilistic Models)을 제안해 신경망이 순방향 노이징 프로세스를 역방향으로 학습하는 생성 모델 구축

The Annotated Diffusion Model

2022년 6월 7일12분intermediate

AI 요약

Context

GAN, VAE, Normalizing Flow 같은 기존 생성 모델들은 단일 포워드 패스에서 잡음을 데이터로 변환하는 방식으로 동작했다. 이러한 모델들은 학습 안정성, 샘플 품질, 다양한 모달리티 지원 면에서 한계를 가지고 있었다.

Technical Solution

순방향 확산 프로세스 설계: 고정된 분산 스케줄(β₁ < β₂ < ... < βₜ)에 따라 T=1000개 타임스텝에 걸쳐 점진적으로 가우시안 노이즈를 이미지에 추가
역방향 생성 프로세스 학습: 신경망이 순수 노이즈(t=T)에서 시작해 최종 이미지(t=0)까지 점진적으로 노이즈 제거 학습
조건부 가우시안 분포 정의: 각 타임스텝에서 x_t = √(1-β_t)·x_{t-1} + √(β_t)·ε 수식으로 노이징 연산 구현
분산 스케줄 전략: 선형, 이차, 코사인 등 다양한 스케줄을 통해 노이즈 추가 속도 제어
PyTorch 기반 단계별 구현: Phil Wang의 TensorFlow 구현을 참고해 모듈화된 신경망 아키텍처로 재구현

Impact

아티클은 DDPM 아키텍처 자체의 정량적 성능 수치를 제시하지 않았다. 다만 후속 연구들에서의 개선 사항들이 언급되었으나, 각각의 구체적인 성능 향상 수치는 제공되지 않았다.

Key Takeaway

생성 모델은 단일 복잡한 변환 함수보다 T개의 작은 단계로 분해된 마르코프 체인을 학습하면 훈련 안정성과 샘플 품질을 동시에 확보할 수 있다. 이 접근법은 이후 Classifier-Free Guidance, 캐스케이드 구조, 다중 모달 조건화 등의 확장을 통해 DALL-E 2, Latent Diffusion, ImageGen 같은 고급 생성 모델의 기초 원리가 되었다.

실천 포인트

이미지 생성 모델을 개발하는 엔지니어는 DDPM의 고정 분산 스케줄 설계와 점진적 노이징/디노이징 구조를 활용하면, 단일 신경망으로 조건부 및 무조건부 생성을 모두 지원하는 유연한 아키텍처를 구축할 수 있다. 특히 T=1000 타임스텝 설정과 U-Net 기반 신경망 구조를 결합하면 GLIDE, DALL-E 2 수준의 고품질 텍스트-이미지 생성 파이프라인의 기초를 마련할 수 있다.

태그

#DDPM #image-generation #Generative Models #Diffusion Models #Deep Learning

원문 읽기