Dev.toDPO 기반 Implicit Reward 모델로 B2B 영업 평가 정확도 74% 달성Tenacious-Bench: Building a Sales Domain Evaluation Benchmark When No Dataset ExistsAI/MLadvanced11 분 소요2026년 5월 1일
Hugging Face BlogHugging Face TRL 라이브러리의 IPO 구현 버그(손실 함수 평균화 누락)를 수정해 DPO와 동등한 성능 달성Preference Tuning LLMs with Direct Preference Optimization MethodsAI/MLintermediate23 분 소요2024년 1월 18일