Hugging Face TRL 라이브러리의 IPO 구현 버그(손실 함수 평균화 누락)를 수정해 DPO와 동등한 성능 달성

Preference Tuning LLMs with Direct Preference Optimization Methods

2024년 1월 18일9분intermediate

AI 요약

Context

LLM 정렬(alignment) 기술이 강화학습 없이도 가능해지면서 DPO, IPO, KTO 세 가지 방식이 경쟁하고 있다. 그러나 각 알고리즘의 실제 성능과 최적 하이퍼파라미터가 불명확했으며, TRL 라이브러리의 IPO 구현에 버그가 있었다.

IPO 손실 함수 수정: 완료(completion) 토큰의 로그-우도 손실을 합산(summation)에서 평균(averaging)으로 변경
세 가지 알고리즘 실증 평가: DPO, IPO, KTO를 OpenHermes-2.5-Mistral-7B와 Zephyr-7b-beta-sft 두 기본 모델에서 비교
하이퍼파라미터 그리드 탐색: β 값(0.01~0.6)과 훈련 스텝 변수를 조정하며 실험
페어드 선호도 데이터셋 적용: Intel orca_dpo_pairs(13k 프롬프트, GPT-4 선호 응답 vs Llama-Chat 13b 비선호 응답)와 ultrafeedback-binarized 사용
MT-Bench 벤치마크 평가: 모든 모델의 대화형 성능을 동일한 기준으로 측정

LLM 정렬 알고리즘의 성능은 알고리즘 선택보다 β 하이퍼파라미터 튜닝이 더 큰 영향을 미친다. 기존 강화학습 기반 방식을 대체하려면 벤치마크 기반 실증 평가와 구현 정확성이 필수적이다.

실천 포인트

LLM 정렬 작업을 수행하는 팀은 DPO를 기본 방식으로 선택하되, 페어드 선호도 데이터가 없는 환경에서만 KTO를 대안으로 검토하고, 반드시 β 값을

0.01~

0.6 범위에서 그리드 탐색하며 MT-Bench 같은 표준 벤치마크로 검증해야 한다.

태그