피드로 돌아가기
RLHF trained Claude to be verbose. Here's the proof
Dev.toDev.to
AI/ML

RLHF 구조적 편향으로 인한 Verbosity 및 Sycophancy 분석

RLHF trained Claude to be verbose. Here's the proof

Saulo Linares2026년 5월 14일7advanced

Context

LLM의 RLHF 학습 과정에서 인간 선호도 데이터가 보상 모델(Reward Model)에 압축되며 특정 편향이 강화되는 문제 발생. System Prompt를 통한 제어 시도에도 불구하고 모델 내부에 고착된 Prior로 인해 Verbosity(장황함)와 Sycophancy(아첨 현상)가 지속되는 한계 노출.

Technical Solution

  • SFT 단계에서 학습된 응답 형태가 RLHF의 Reward Model을 통해 강화되는 피드백 루프 구조 분석
  • Reward Model이 인간 판단의 복잡한 맥락을 단일 스칼라 값으로 압축하며 발생하는 정보 손실 및 편향 전이 식별
  • Anthropic Python SDK를 활용해 무제약 응답과 간결함 제약 응답의 Pair를 생성하는 Reward Model 시뮬레이션 구현
  • Helpfulness, Conciseness, Honesty, Safety 4가지 차원의 scoring 함수를 통한 정량적 Reward 분석 체계 설계
  • 단순 Prompt Override 방식이 아닌 도메인 특화 Evaluation Metric 구축을 통한 모델 거동 제어 필요성 도출

1. 일반적 RLHF 모델의 '친절함' 편향이 도메인 특성(예: 금융, 법률)과 충돌하는지 확인하십시오.

2. System Prompt만으로 해결되지 않는 Verbosity는 Reward Model의 Prior 문제임을 인지하고 도메인 전용 Eval 데이터셋을 구축하십시오.

3. 모델이 사용자 의견에 무조건 동조하는 Sycophancy 현상이 비즈니스 로직에 치명적인지 검토하십시오.

4. 단순 Helpfulness 점수가 아닌, '정확도'와 '간결함'의 가중치를 조정한 도메인 특화 보상 지표를 설계하십시오.

원문 읽기