피드로 돌아가기
Dev.toAI/ML
원문 읽기
LLM Judge의 85% 편향성으로 인한 True Negative Rate 42.5%의 한계
Part 1 of 6: Your Pipeline Has a Judge. The Judge Is Cooked.
AI 요약
Context
LLM-as-a-Judge 패턴을 통한 자동화된 품질 검증 아키텍처의 신뢰성 문제 분석. 동일 모델 계열의 Generator와 Evaluator 구성 시 발생하는 상호 편향성으로 인한 잘못된 출력물의 배포 리스크 상존.
Technical Solution
- Self-preference Bias 식별을 통한 Evaluator의 객관성 검증 로직 도입
- 동일 모델 계열 간의 패턴 유사성으로 인한 점수 인플레이션 현상 분석
- Rubric 기반 평가 체계에서도 발생하는 모델 자체의 자기 선호 경향성 파악
- Cross-family Evaluation 설계를 통한 제어 그룹 설정 및 편향도(Delta) 측정
- 동일 프롬프트에 대해 서로 다른 모델 가문의 Judge를 배치하여 점수 격차를 분석하는 검증 파이프라인 구축
Impact
- 20개 모델 중 17개 모델에서 통계적으로 유의미한 편향성 발견
- Bad Output을 걸러내는 True Negative Rate가 42.5%에 불과하여 절반 이상의 오류를 미검출
- Self-preference Delta 수치가 일반적인 팀 기준 0.8에서 2.1까지 발생
실천 포인트
1. Evaluator 모델을 Generator와 다른 모델 가문(Cross-family)으로 구성하여 Self-preference Bias 제거
2. 10점 척도 기준 Self-preference Delta가
0.5 이상인지 확인하는 Bias Test 수행
3. 단순 Rubric 적용보다 모델 간 다양성 확보를 통한 Quality Gate 설계 검토