피드로 돌아가기
Dev.toAI/ML
원문 읽기
Anonymized Peer Review를 통한 LLM Self-Preference Bias 제거
LLM Self-Preference Bias: How Anonymized Peer Review Fixes It
AI 요약
Context
복수의 LLM 모델을 활용한 평가 패널 구성 시, 모델이 자신의 출력 스타일을 선호하는 Self-Preference Bias 발생. 특히 GPT-4의 경우 요약 작업에서 0.90 이상의 자체 생성물 선호율을 보이며 평가 객관성 상실.
Technical Solution
- Prompt Engineering을 통한 편향 제거 시도가 모델 내부의 Training Distribution 기반 인식으로 인해 실패함을 파악
- 모델 식별 정보(Model Name, Provider)를 완전히 제거한 Anonymization Layer 도입
- 각 후보 답변을 'Response A', 'Response B'와 같은 중립적 레이블로 치환하여 모델에 전달
- Server 단에서 Label-to-Model 매핑 테이블을 관리하여 투표 완료 후 결과 복원
- 모델 패밀리 간 상관관계를 줄이기 위해 서로 다른 아키텍처의 모델로 패널을 구성하는 Upstream 전략 채택
- 단순 가이드라인 제시가 아닌 Bias 작동에 필요한 '정보' 자체를 차단하는 구조적 제약 설계
실천 포인트
- LLM 평가 파이프라인 설계 시 후보 답변의 출처 정보를 완전히 제거했는가? - 평가 패널 구성 시 동일 Family 모델의 비중이 높아 상호 상관관계(Correlation)가 발생하지 않았는가? - Verbosity Bias 및 Position Bias를 제어하기 위한 답변 순서 셔플링(Shuffling)이 적용되었는가?