피드로 돌아가기
Dev.toAI/ML
원문 읽기
LLM-as-judge Binary 전환을 통한 Cohen's Kappa 0.47에서 0.78로 개선
Switching our LLM-as-judge from 5-class to binary in CI: the patterns we kept
AI 요약
Context
기존 5단계 scale 기반의 helpfulness 측정 방식에서 평균값 사용으로 인한 신호 왜곡 발생. 낮은 인간 일치도(Cohen's kappa 0.47)와 루브릭 모호성으로 인한 CI 게이트의 실효성 부족 문제 직면.
Technical Solution
- 단일 5-class assertion을 4개의 독립적인 Binary criterion(Accuracy, Groundedness, Format, Question-answered)으로 분리 설계
- Weighted Sum 방식을 통한 일일 CI 게이트 제어 및 Per-criterion Threshold 기반의 주간 심층 분석 체계 구축
- 단순 수치 합산이 아닌 개별 기준별 Pass-rate 측정으로 Regression 발생 지점(Generation vs Retrieval)의 정밀한 격리
- Labeling 비용 최적화를 위해 Calibration set 규모를 200개에서 100개로 축소하되 Binary 기준으로 정밀도 유지
- Judge Prompt의 버전 관리 및 Git 기반 추적을 통해 Rater drift 현상 방지
실천 포인트
- LLM-as-judge 도입 시 3~4개의 핵심 Binary criteria로 분해할 것 - 가중합(Weighted Sum) 방식의 CI 게이트와 개별 임계치(Per-criterion) 기반의 분석 도구를 이원화하여 운영할 것 - Judge Prompt를 기능 프롬프트와 동일한 수준의 버전 관리 및 Calibration 프로세스에 포함시킬 것