피드로 돌아가기
I Built a Benchmark for the Failures Generic LLM Evaluations Miss
Dev.toDev.to
AI/ML

Judgment-focused Benchmark 도입으로 LLM 정확도 48.84%p 향상

I Built a Benchmark for the Failures Generic LLM Evaluations Miss

Ephrata Nebiyu2026년 5월 2일5advanced

Context

기존 Generic LLM Benchmark가 워크플로우 상의 Judgment Failure를 감지하지 못하는 한계 직면. 단순 텍스트 생성 능력이 아닌, 비즈니스 맥락에 따른 과잉 주장 및 부적절한 사회적 대응 등 판단 오류 해결이 필요한 상황.

Technical Solution

  • Generator 개선 대신 Judgment Consistency 문제로 정의하여 Preference-tuned Critic(Path B) 도입
  • 실무 Trace, Programmatic, Multi-LLM Synthesis, Hand-authored 4가지 모드를 혼합한 Tenacious-Bench v0.1 설계
  • 생성 모델과 평가 모델의 계열을 분리하는 Anti-leakage Policy를 적용하여 평가 신뢰도 확보
  • n-gram overlap 및 Cosine Similarity 기반의 Contamination Check를 통한 Train/Dev/Held-out 데이터 무결성 검증
  • Benchmark 기반의 Preference Pair를 생성하여 ORPO, DPO, SimPO 학습이 가능한 데이터셋 구조 구축
  • Lightweight Local Critic 설계를 통한 효율적인 실시간 판단 게이트 구현

- 비즈니스 특화 실패 사례(Failure Mode)를 정의하고 이를 측정할 전용 Benchmark를 우선 구축했는가 - 평가 데이터 생성 시 Generator와 Judge 모델의 Family를 분리하여 Data Leakage를 방지했는가 - 단순 정성 평가가 아닌 Held-out 데이터셋에 대한 정량적 Lift와 Confidence Interval을 측정했는가 - 모델 전체 파이튜닝 전, 판단 로직만을 전담하는 가벼운 Critic 레이어 도입을 검토했는가

원문 읽기