DPO 기반 Implicit Reward 모델로 B2B 영업 평가 정확도 74% 달성

Tenacious-Bench: Building a Sales Domain Evaluation Benchmark When No Dataset Exists

lidya dagnew2026년 5월 1일4분advanced

AI 요약

Context

일반 LLM 벤치마크의 단순 태스크 완료 측정 방식으로는 B2B 영업의 세부 세그먼트별 맞춤형 메시지 정밀도를 평가하기 어려운 한계 존재. 특히 정답 레이블이 없는 상황에서 도메인 특화된 실패 모드를 탐지할 수 있는 고정밀 평가 체계 구축이 필수적인 상황.

Technical Solution

8가지 구체적 실패 모드(Failure Modes)를 정의하여 세그먼트 오라우팅 및 톤 이탈 등을 탐지하는 평가 루브릭 설계
Programmatic(32%), Multi-LLM Synthesis(48%), Adversarial Hand-authored(20%)의 4모드 파이프라인을 통한 202개 고밀도 데이터셋 구축
세그먼트 일치 여부라는 판단 오류(Judgment Failure) 해결을 위해 SFT 대신 DPO(Direct Preference Optimization) 기반의 Preference-tuned Judge 채택
SimPO의 길이 정규화로 인한 신호 희석을 방지하고자 Full-sequence Reward를 제공하는 DPO 알고리즘 적용
Verdict 텍스트 생성이 아닌 log-probability 차이를 이용한 Implicit Reward 인터페이스를 구현하여 100% PASS 편향 문제 해결
Qwen2.5-0.5B-Instruct 모델에 LoRA(r=16, α=32)를 적용하여 제한된 컴퓨팅 자원(T4 GPU)에서 최적화 수행

실천 포인트

- LLM 평가 모델 설계 시 'PASS/FAIL' 텍스트 생성 방식보다 Log-probability 기반의 Implicit Reward 인터페이스 검토 - 데이터셋 구축 시 생성 모델과 판별 모델의 가문(Model Family)을 분리하여 Preference Leakage 방지 - 세밀한 문맥 일치 여부를 판단해야 하는 경우 SimPO보다 DPO의 Full-sequence Reward가 유리함을 고려

태그

#Implicit Reward #DPO #LLM Evaluation #Preference-Tuning #LoRA

원문 읽기