Anonymized Peer Review를 통한 LLM Self-Preference Bias 제거

LLM Self-Preference Bias: How Anonymized Peer Review Fixes It

praveenlavu2026년 6월 18일9분intermediate

AI 요약

Context

복수의 LLM 모델을 활용한 평가 패널 구성 시, 모델이 자신의 출력 스타일을 선호하는 Self-Preference Bias 발생. 특히 GPT-4의 경우 요약 작업에서 0.90 이상의 자체 생성물 선호율을 보이며 평가 객관성 상실.

Technical Solution

Prompt Engineering을 통한 편향 제거 시도가 모델 내부의 Training Distribution 기반 인식으로 인해 실패함을 파악
모델 식별 정보(Model Name, Provider)를 완전히 제거한 Anonymization Layer 도입
각 후보 답변을 'Response A', 'Response B'와 같은 중립적 레이블로 치환하여 모델에 전달
Server 단에서 Label-to-Model 매핑 테이블을 관리하여 투표 완료 후 결과 복원
모델 패밀리 간 상관관계를 줄이기 위해 서로 다른 아키텍처의 모델로 패널을 구성하는 Upstream 전략 채택
단순 가이드라인 제시가 아닌 Bias 작동에 필요한 '정보' 자체를 차단하는 구조적 제약 설계

실천 포인트

- LLM 평가 파이프라인 설계 시 후보 답변의 출처 정보를 완전히 제거했는가? - 평가 패널 구성 시 동일 Family 모델의 비중이 높아 상호 상관관계(Correlation)가 발생하지 않았는가? - Verbosity Bias 및 Position Bias를 제어하기 위한 답변 순서 셔플링(Shuffling)이 적용되었는가?

태그

#Position Bias #Training Distribution #LLM Evaluation #Self-preference Bias #Anonymization

원문 읽기