TRL이 Vision Language Model 정렬을 위해 Mixed Preference Optimization, Group Relative Policy Optimization, Group Sequence Policy Optimization 3가지 새로운 알고리즘을 추가하고 vLLM 통합으로 온라인 정렬 훈련 지원

Vision Language Model Alignment in TRL ⚡️

2025년 8월 7일10분intermediate

AI 요약

Context

Supervisied Fine-Tuning(SFT)과 Direct Preference Optimization(DPO)만으로는 Vision Language Model의 인간 선호도 정렬이 제한적이었다. DPO는 쌍방향 비교만 가능해 선호도 데이터에서 더 풍부한 신호를 추출하지 못했고, SFT는 분포 이동으로 인해 추론 작업에서 부족했다.

Technical Solution

Mixed Preference Optimization(MPO) 도입: DPO의 sigmoid 손실함수, Binary Classifier Optimization(BCO)의 품질 손실, SFT의 생성 손실을 결합하여 DPOTrainer 클래스에 loss_type=['sigmoid', 'bco_pair', 'sft']와 loss_weights 파라미터로 구현
Group Relative Policy Optimization(GRPO) 지원 추가: 배치 단위 정책 업데이트로 보상 노이즈의 영향을 감소시키고 VLM용 포맷 검증 및 솔루션 검증 리워드 함수 구현
Group Sequence Policy Optimization(GSPO) 도입: GRPO의 변형으로 VLM 훈련 성능 강화
Vision Language Model 네이티브 Supervised Fine-tuning 지원: 이미지 칼럼이 포함된 데이터셋으로 VLM 직접 훈련 가능하도록 sft_vlm.py 스크립트 제공
vLLM 통합: 온라인 정렬 방법(Online DPO, RLOO)에서 훈련 중 샘플 생성을 위해 colocate 모드(동일 프로세스 GPU 공유)와 server 모드(별도 프로세스) 2가지 방식으로 구현
Reinforce Leave One Out(RLOO)과 Online Direct Preference Optimization(Online DPO) 확장: 기존 방법을 VLM에 맞게 적용하여 다중모달 정렬의 확장성 증대

Impact

Mixed Preference Optimization 적용 시 MathVista에서 6.2포인트 향상.

Key Takeaway

Vision Language Model 정렬은 단순히 기존 LLM 방법을 적용하는 것이 아니라, 다중 손실함수 조합(MPO), 그룹 기반 정책 최적화(GRPO), 훈련 중 동적 생성(vLLM 통합)의 세 가지 차원에서 개선해야 한다. 이를 통해 분포 이동 문제를 해결하고 보상 노이즈에 강건한 훈련이 가능하다.

실천 포인트

Vision Language Model을 인간 선호도에 맞춰 정렬하려는 팀이 있다면, DPO 대신 MPO의 혼합 손실함수 구조(DPO + BCO + SFT 손실 결합)를 적용하면 MathVista 같은 추론 작업에서

6.2포인트의 성능 향상을 기대할 수 있다. 또한 GRPO를 통해 배치 단위 정책 업데이트를 구현하면 보상 모델의 노이즈에 의한 훈련 불안정성을 완화할 수 있으며, vLLM의 colocate 모드를 통합하면 메모리 효율적인 온라인 생성 훈련이 가능해진다.

태그

#Vision Language Model #DPO #TRL #vLLM #GRPO

원문 읽기