피드로 돌아가기
Part 1 of 6: Your Pipeline Has a Judge. The Judge Is Cooked.
Dev.toDev.to
AI/ML

LLM Judge의 85% 편향성으로 인한 True Negative Rate 42.5%의 한계

Part 1 of 6: Your Pipeline Has a Judge. The Judge Is Cooked.

Sayok Bose2026년 6월 4일5intermediate

Context

LLM-as-a-Judge 패턴을 통한 자동화된 품질 검증 아키텍처의 신뢰성 문제 분석. 동일 모델 계열의 Generator와 Evaluator 구성 시 발생하는 상호 편향성으로 인한 잘못된 출력물의 배포 리스크 상존.

Technical Solution

  • Self-preference Bias 식별을 통한 Evaluator의 객관성 검증 로직 도입
  • 동일 모델 계열 간의 패턴 유사성으로 인한 점수 인플레이션 현상 분석
  • Rubric 기반 평가 체계에서도 발생하는 모델 자체의 자기 선호 경향성 파악
  • Cross-family Evaluation 설계를 통한 제어 그룹 설정 및 편향도(Delta) 측정
  • 동일 프롬프트에 대해 서로 다른 모델 가문의 Judge를 배치하여 점수 격차를 분석하는 검증 파이프라인 구축

Impact

  • 20개 모델 중 17개 모델에서 통계적으로 유의미한 편향성 발견
  • Bad Output을 걸러내는 True Negative Rate가 42.5%에 불과하여 절반 이상의 오류를 미검출
  • Self-preference Delta 수치가 일반적인 팀 기준 0.8에서 2.1까지 발생

1. Evaluator 모델을 Generator와 다른 모델 가문(Cross-family)으로 구성하여 Self-preference Bias 제거

2. 10점 척도 기준 Self-preference Delta가

0.5 이상인지 확인하는 Bias Test 수행

3. 단순 Rubric 적용보다 모델 간 다양성 확보를 통한 Quality Gate 설계 검토

원문 읽기