동일 Model Family 기반 LLM 평가 시 Self-Preference Bias로 인한 오류 방어율 86% 기록

Part 2 of 6: You Upgraded the Judge. It Got Worse. You Kept Upgrading.

Sayok Bose2026년 6월 4일5분intermediate

AI 요약

Context

LLM 기반 평가 시스템에서 모델 성능 향상이 곧 평가 정확도 향상으로 이어질 것이라는 잘못된 가설에 기반한 아키텍처 설계. 동일 계열의 더 스마트한 모델을 Judge로 도입했으나, 모델이 자신의 오류를 정당화하는 Self-Preference Bias가 강화되는 병목 지점 발생.

Technical Solution

Generator와 Judge 간의 Model Family 분리를 통한 구조적 독립성 확보
동일 모델 계열 사용 시 발생하는 논리적 패턴 및 Confidence Marker 인식 기반의 편향성 제거
스마트한 모델일수록 정교한 논리로 오답을 방어하는 'Defence Attorney Problem' 해결을 위한 Cross-family Evaluation 도입
단순 모델 업그레이드가 아닌 평가 주체와 생성 주체의 아키텍처적 디커플링 설계
모델의 Capability(r=0.801)와 Self-preference(r=0.86) 사이의 상관관계 분석을 통한 검증 로직 수정

실천 포인트

1. Generator와 Judge가 동일한 제공자(예: OpenAI)의 모델인지 확인

2. 모델 업그레이드 후 True Negative Rate의 실질적 변화 여부를 Human Audit으로 검증

3. 고위험 도메인의 경우 서로 다른 아키텍처를 가진 모델(예: GPT-4o $\rightarrow$ Claude Sonnet)로 평가 파이프라인 구성

태그

#Evaluation Pipeline #Cross-family Evaluation #LLM-as-a-Judge #Self-preference Bias #Model Capability

원문 읽기