Hugging Face TRL 라이브러리가 DDPO(Denoising Diffusion Policy Optimization)를 구현해 Stable Diffusion 모델의 이미지 생성 품질을 인간의 미적 선호도에 맞춰 파인튜닝 가능하게 함

Finetune Stable Diffusion Models with DDPO via TRL

2023년 9월 29일10분intermediate

AI 요약

Context

Stable Diffusion 같은 확산 모델은 포토리얼리스틱 이미지를 생성하지만, 생성된 이미지가 항상 인간의 선호도나 의도와 일치하지 않는 정렬 문제가 존재한다. 기존의 Reward-weighted regression(RWR) 방식은 최종 샘플의 근사 우도만 최적화하면서 중간 노이즈 제거 단계를 무시해 성능과 복잡한 목표 처리에 한계가 있었다.

Technical Solution

노이즈 제거 과정을 단일 단계가 아닌 다단계 마르코프 의사결정 과정(MDP)으로 재정의: 최종 샘플에서만 보상을 받는 구조로 변경
정책을 임의의 복잡한 분포 대신 등방성 가우시안으로 제약: 최종 샘플의 근사 우도 대신 각 노이즈 제거 단계의 정확한 우도를 계산하는 방식 도입
정책 그래디언트 방법(Proximal Policy Optimization, PPO)을 기반으로 DDPO 알고리즘 구현: 궤적 수집 부분을 노이즈 제거 프로세스에 맞게 커스터마이징
TRL 라이브러리에 DDPOTrainer 통합: Stable Diffusion 모델의 LoRA 방식 파인튜닝 기본 지원
강화학습 기반 인간 피드백(RLHF) 워크플로우 적용: 사전학습된 확산 모델 → 선호도 데이터 수집 및 보상 모델 훈련 → DDPO 기반 파인튜닝

Impact

아티클에서 정량적 성능 수치가 제공되지 않았으나, bear, heaven, dune 프롬프트에 대해 파인튜닝 전후 시각적 비교를 통해 생성 이미지 품질 개선을 확인했다.

Key Takeaway

DDPO는 근사 최적화가 아닌 각 단계의 정확한 우도를 계산함으로써 RWR의 누적 오차를 제거하며, 다단계 MDP 프레임워크로 모델링하면 확산 모델을 복잡한 보상 함수에 정렬할 수 있다. LoRA 방식 파인튜닝은 하이퍼파라미터 튜닝이 용이하지만, 전체 모델 훈련 시에는 학습률을 1e-5 수준으로 낮춰야 안정성을 확보할 수 있다.

실천 포인트

Stable Diffusion을 사용하는 이미지 생성 서비스에서 TRL의 DDPOTrainer를 활용해 LoRA 파인튜닝으로 파인튜닝하면, 하이퍼파라미터 튜닝 복잡도를 낮추면서 인간의 미적 선호도에 부합하는 고품질 이미지를 생성할 수 있다.

태그

#Fine-Tuning #RLHF #Stable Diffusion #Reinforcement Learning #DDPO

원문 읽기