Hugging Face BlogHugging Face TRL 라이브러리의 IPO 구현 버그(손실 함수 평균화 누락)를 수정해 DPO와 동등한 성능 달성Preference Tuning LLMs with Direct Preference Optimization MethodsAI/MLintermediate23 분 소요2024년 1월 18일