GRPO 기반 RL 및 OPD 증류를 통한 Qwen-Image-2.0 성능 최적화

The Interesting Part of Qwen-Image-2.0-RL Is Not the Image Score

komo2026년 6월 29일7분advanced

AI 요약

Context

기존 Diffusion 모델의 단순 Reward 최적화 방식은 이미지 붕괴 및 Reward Hacking 유발 가능성이 높음. 특히 LLM과 달리 출력 공간이 이미지 전체인 경우 단순한 최적화 루프만으로는 인간의 선호도를 정확히 반영하는 데 한계가 존재함.

Technical Solution

CFG 분리 전략: Rollout 단계에서는 CFG를 적용해 고품질 샘플을 확보하고, Policy Optimization 단계에서는 Unconditional Branch를 제외하여 학습 안정성 확보
Timestep Sampling 최적화: 40단계 전체 학습 대신 고노이즈(High-noise) 초기 단계에 집중하여 전역적 구조 제어력을 높이고 국소적 텍스처 해킹 방지
Reward Variance 기반 데이터 필터링: 샘플 간 Reward 편차가 낮은 프롬프트를 제외하여 학습 신호가 강한 데이터만 선택하는 효율적 Compute 배분
Task-specific Reward Model: 텍스트-이미지 정렬 및 이미지 편집의 각기 다른 목적에 맞춘 개별 보상 모델 설계로 목적 간 충돌 방지
On-Policy Distillation(OPD): Trajectory-level Velocity Matching을 통해 분산된 Task별 Teacher 모델들을 하나의 Student 모델로 통합하여 서빙 효율 극대화

실천 포인트

- RL 학습 시 모델이 지표를 편법으로 최적화(Reward Hacking)하는지 확인하고, 최적화 타겟을 전역적 제어 단계로 이동 고려 - 추론 시 필요한 제어 노브(CFG 등)가 학습 안정성을 해친다면, Rollout과 Optimization 단계를 분리하여 적용 - 여러 전문 모델의 결과물을 통합해야 할 경우, 서빙 복잡도를 줄이기 위한 On-policy Distillation 도입 검토

태그

#on-policy distillation #Reward Hacking #Classifier-Free Guidance #Diffusion Model #GRPO

원문 읽기