Judgment-focused Benchmark 도입으로 LLM 정확도 48.84%p 향상

I Built a Benchmark for the Failures Generic LLM Evaluations Miss

Ephrata Nebiyu2026년 5월 2일5분advanced

AI 요약

Context

기존 Generic LLM Benchmark가 워크플로우 상의 Judgment Failure를 감지하지 못하는 한계 직면. 단순 텍스트 생성 능력이 아닌, 비즈니스 맥락에 따른 과잉 주장 및 부적절한 사회적 대응 등 판단 오류 해결이 필요한 상황.

Technical Solution

Generator 개선 대신 Judgment Consistency 문제로 정의하여 Preference-tuned Critic(Path B) 도입
실무 Trace, Programmatic, Multi-LLM Synthesis, Hand-authored 4가지 모드를 혼합한 Tenacious-Bench v0.1 설계
생성 모델과 평가 모델의 계열을 분리하는 Anti-leakage Policy를 적용하여 평가 신뢰도 확보
n-gram overlap 및 Cosine Similarity 기반의 Contamination Check를 통한 Train/Dev/Held-out 데이터 무결성 검증
Benchmark 기반의 Preference Pair를 생성하여 ORPO, DPO, SimPO 학습이 가능한 데이터셋 구조 구축
Lightweight Local Critic 설계를 통한 효율적인 실시간 판단 게이트 구현

실천 포인트

- 비즈니스 특화 실패 사례(Failure Mode)를 정의하고 이를 측정할 전용 Benchmark를 우선 구축했는가 - 평가 데이터 생성 시 Generator와 Judge 모델의 Family를 분리하여 Data Leakage를 방지했는가 - 단순 정성 평가가 아닌 Held-out 데이터셋에 대한 정량적 Lift와 Confidence Interval을 측정했는가 - 모델 전체 파이튜닝 전, 판단 로직만을 전담하는 가벼운 Critic 레이어 도입을 검토했는가

태그

#Judgment Failure #Preference Optimization #Data Contamination #LLM Evaluation #Critic Model

원문 읽기