Microsoft와 중국 과학기술대학이 양자화된 잠재 공간에서 작동하는 이산 확산 모델 VQ-Diffusion을 개발해 자동회귀 모델 대비 15배 빠른 이미지 생성 달성

VQ-Diffusion

2022년 11월 30일12분advanced

AI 요약

Context

기존 연속 확산 모델은 가우시안 노이즈를 반복 추가하는 방식으로 작동하며, 이산 확산 모델에 대한 연구는 상대적으로 적었다. 동시에 자동회귀 모델은 토큰을 순차적으로 예측해야 하므로 생성 속도가 느렸다.

Technical Solution

VQ-VAE 인코더로 이미지를 이산 토큰으로 변환: 32x32 잠재 해상도의 고정 크기 코드북 기반 양자화
이산 확산 프로세스 설계: 각 토큰이 동일 확률로 유지·교체·마스킹되는 forward process 구현 (α_t, β_t, γ_t 하이퍼파라미터로 제어)
인코더-디코더 트랜스포머 아키텍처 채택: CLIP 텍스트 인코더(고정 가중치) + 이산 분포 전체를 한 번에 예측하는 디코더 트랜스포머
단일 forward pass에서 모든 잠재 픽셀에 대한 전역 자기 주의 제공: 토큰 간 의존성을 완전히 모델링
빠른 추론 전략 구현: 시간 스트라이드(Δt)로 역확산 단계 스킵 가능 (100단계 기준 약 10배 계산량 감소)

Impact

AR 모델 대비 15배 빠른 생성 속도 달성
더 나은 이미지 품질 동시 달성
ITHQ 데이터셋 기준 빅오 표기법상 약 10배 계산량 감소 (100 diffusion steps)

Key Takeaway

이산 확산 모델은 연속 확산의 노이즈 예측 방식 대신 토큰 분포를 직접 예측함으로써 전역 문맥을 한 번에 활용할 수 있으며, 이를 통해 자동회귀 모델의 순차 생성 병목을 제거하고 대규모 이미지 생성 작업에서 실질적인 성능 이득을 얻을 수 있다.

실천 포인트

이미지 생성 시스템을 구축하는 팀에서 지연시간 최소화가 중요하다면, VQ-VAE 기반 이산 확산 모델 도입을 검토할 수 있다. 사전 학습된 VQ-VAE 인코더를 동결하고 조건부 이산 토큰 분포 예측에 집중하면, 자동회귀 모델 대비 순차 생성 없이도 전역 문맥 기반 고품질 이미지를 생성할 수 있다.

태그

#Transformer #image-generation #Diffusion Models #Discrete Latent Space #Vector Quantization

원문 읽기