피드로 돌아가기
LLM Self-Preference Bias: How Anonymized Peer Review Fixes It
Dev.toDev.to
AI/ML

Anonymized Peer Review를 통한 LLM Self-Preference Bias 제거

LLM Self-Preference Bias: How Anonymized Peer Review Fixes It

praveenlavu2026년 6월 18일9intermediate

Context

복수의 LLM 모델을 활용한 평가 패널 구성 시, 모델이 자신의 출력 스타일을 선호하는 Self-Preference Bias 발생. 특히 GPT-4의 경우 요약 작업에서 0.90 이상의 자체 생성물 선호율을 보이며 평가 객관성 상실.

Technical Solution

  • Prompt Engineering을 통한 편향 제거 시도가 모델 내부의 Training Distribution 기반 인식으로 인해 실패함을 파악
  • 모델 식별 정보(Model Name, Provider)를 완전히 제거한 Anonymization Layer 도입
  • 각 후보 답변을 'Response A', 'Response B'와 같은 중립적 레이블로 치환하여 모델에 전달
  • Server 단에서 Label-to-Model 매핑 테이블을 관리하여 투표 완료 후 결과 복원
  • 모델 패밀리 간 상관관계를 줄이기 위해 서로 다른 아키텍처의 모델로 패널을 구성하는 Upstream 전략 채택
  • 단순 가이드라인 제시가 아닌 Bias 작동에 필요한 '정보' 자체를 차단하는 구조적 제약 설계

- LLM 평가 파이프라인 설계 시 후보 답변의 출처 정보를 완전히 제거했는가? - 평가 패널 구성 시 동일 Family 모델의 비중이 높아 상호 상관관계(Correlation)가 발생하지 않았는가? - Verbosity Bias 및 Position Bias를 제어하기 위한 답변 순서 셔플링(Shuffling)이 적용되었는가?

원문 읽기