LLM-as-judge Binary 전환을 통한 Cohen's Kappa 0.47에서 0.78로 개선

Switching our LLM-as-judge from 5-class to binary in CI: the patterns we kept

Ethan Walker2026년 6월 3일3분advanced

AI 요약

Context

기존 5단계 scale 기반의 helpfulness 측정 방식에서 평균값 사용으로 인한 신호 왜곡 발생. 낮은 인간 일치도(Cohen's kappa 0.47)와 루브릭 모호성으로 인한 CI 게이트의 실효성 부족 문제 직면.

Technical Solution

단일 5-class assertion을 4개의 독립적인 Binary criterion(Accuracy, Groundedness, Format, Question-answered)으로 분리 설계
Weighted Sum 방식을 통한 일일 CI 게이트 제어 및 Per-criterion Threshold 기반의 주간 심층 분석 체계 구축
단순 수치 합산이 아닌 개별 기준별 Pass-rate 측정으로 Regression 발생 지점(Generation vs Retrieval)의 정밀한 격리
Labeling 비용 최적화를 위해 Calibration set 규모를 200개에서 100개로 축소하되 Binary 기준으로 정밀도 유지
Judge Prompt의 버전 관리 및 Git 기반 추적을 통해 Rater drift 현상 방지

실천 포인트

- LLM-as-judge 도입 시 3~4개의 핵심 Binary criteria로 분해할 것 - 가중합(Weighted Sum) 방식의 CI 게이트와 개별 임계치(Per-criterion) 기반의 분석 도구를 이원화하여 운영할 것 - Judge Prompt를 기능 프롬프트와 동일한 수준의 버전 관리 및 Calibration 프로세스에 포함시킬 것

태그

#CI/CD #Regression Testing #Calibration #LLM-as-judge #Cohen's Kappa

원문 읽기