Hugging Face TRL 라이브러리가 Vision Language Model을 위한 Direct Preference Optimization(DPO) 지원 추가로 AMBER 벤치마크에서 Idefics2 기준 환각 감소(85.8→85.9 정확도)
Preference Optimization for Vision Language Models
Preference Optimization for Vision Language Models
Constitutional AI with Open LLMs