Hugging Face TRL 라이브러리가 Vision Language Model을 위한 Direct Preference Optimization(DPO) 지원 추가로 AMBER 벤치마크에서 Idefics2 기준 환각 감소(85.8→85.9 정확도)

Preference Optimization for Vision Language Models

2024년 7월 10일12분intermediate

AI 요약

Context

Vision Language Model(VLM)을 fine-tuning할 때 supervised fine-tuning 방식은 데이터에 특정 레이블을 할당해야 하는 비용 문제가 있다. 기존 방식은 선택지 간 미묘한 차이를 포착하기 어려워 인간의 선호도를 정확히 학습하기 어렵다.

Technical Solution

Preference optimization 도입: 고정 레이블 할당 대신 선택된 답변과 거절된 답변을 비교 랭킹하는 방식으로 전환
DPO(Direct Preference Optimization)를 TRL 라이브러리에 구현: Idefics2-8b, Llava 1.5, PaliGemma 모델 지원
데이터셋 포맷팅: openbmb/RLAIF-V-Dataset(83,000개 주석 데이터)을 사용자-어시스턴트 대화 형식으로 구조화
입력 데이터 통합: 이미지와 텍스트 프롬프트를 AutoProcessor로 처리해 모델 입력 형식으로 변환
메모리 계산 및 최적화: GPU 메모리 요구사항을 매개변수 수(N)와 정밀도(P)로 추정하는 공식 제시
모델별 fine-tuning 스크립트 제공: accelerate launch를 통한 분산 학습 예시(batch_size 2, gradient_accumulation_steps 32, LoRA 적용)

Impact

AMBER 벤치마크 정확도: Idefics2는 85.8%, Idefics2+DPO는 85.9%(+0.1%)
AMBER 벤치마크 F1 점수: Idefics2는 89.1, Idefics2+DPO는 89.4(+0.3)

Key Takeaway

VLM fine-tuning에서 선호도 기반 최적화는 고가의 정확한 레이블링을 피하면서도 binary choice 데이터셋으로 환각 감소 효과를 달성할 수 있다. 사전 구성된 데이터셋과 라이브러리 지원으로 복잡한 VLM 학습 파이프라인의 접근성을 높였다.

실천 포인트

Vision Language Model 기반 QA 또는 이미지 분석 시스템에서 DPO 방식을 도입하면, 선택/거절 쌍으로 구성된 선호도 데이터만으로 환각을 감소시킬 수 있다. openbmb/RLAIF-V-Dataset 같은 공개 선호도 데이터셋과 TRL의 dpo_visual.py 스크립트를 사용하면 Idefics2나 PaliGemma를 4~8주 내 fine-tuning할 수 있다.

태그

#Fine-Tuning #Vision Language Model #DPO #TRL #Direct Preference Optimization

원문 읽기