Hugging Face TRL 라이브러리가 DPO(Direct Preference Optimization)를 도입해 RLHF 파이프라인에서 보상 모델과 RL 최적화 단계를 제거하고 이진 교차 엔트로피 손실로 직접 최적화 가능하게 변경

Fine-tune Llama 2 with DPO

2023년 8월 8일10분intermediate

AI 요약

Context

기존 RLHF 방식은 보상 모델 학습, 정책 최적화, KL 페널티 조정 등 복잡한 RL 기계장치를 포함하고 있으며, 보상 함수 설계 오류나 모델 편향이 생길 수 있는 다단계 프로세스로 구성되어 있다.

보상 모델 제거: 기존 RLHF의 보상 모델 학습 단계를 건너뛰고 선호도 데이터에서 암묵적 보상을 도출하도록 변경
손실 함수 변환: RL 목적함수를 분석적으로 매핑하여 이진 교차 엔트로피 손실로 직접 변환 가능하게 개선
참조 모델 직접 최적화: 보상 모델 대신 기준 모델(reference model)만 필요하게 하여 파이프라인 단순화
선호도 데이터 포맷 정의: prompt, chosen, rejected 세 개 필드를 가진 딕셔너리 구조로 입력 데이터 표준화
DPOTrainer 구현: TRL 라이브러리에서 DPOTrainer를 제공하며 beta 하이퍼파라미터(0.1~0.5 범위)로 참조 모델 영향도 조절

LLM 선호도 정렬 작업에서 RL의 복잡성을 제거하고 지도 학습 패러다임으로 전환하면, 구현 난이도를 낮추면서도 동일한 정렬 목표를 달성할 수 있으며 이는 보상 모델 설계 오류의 위험을 제거한다.

실천 포인트

LLM을 사용자 선호도에 맞춰 파인튜닝해야 하는 엔지니어 팀에서 DPO 방식을 채택하면, 기존 4단계 RLHF 파이프라인(SFT → 데이터 주석 → 보상 모델 → RL 최적화)을 2단계(SFT → DPO 학습)로 단축할 수 있어 개발 복잡도를 크게 줄일 수 있다.

태그