피드로 돌아가기
Understanding Reinforcement Learning with Human Feedback Part 6: How the Reward Model Trains the Original Model
Dev.toDev.to
AI/ML

Reward Model 기반 RLHF를 통한 LLM 정렬 및 응답 품질 최적화

Understanding Reinforcement Learning with Human Feedback Part 6: How the Reward Model Trains the Original Model

Rijul Rajesh2026년 5월 26일1intermediate

Context

Supervised Fine-Tuning(SFT) 데이터셋 외부의 새로운 프롬프트 입력 시 모델 응답의 일관성 부족 및 인간 선호도 불일치 발생. 단순 텍스트 생성 방식으로는 사용자의 의도에 부합하는 유용한 응답을 지속적으로 생성하는 데 한계 존재.

Technical Solution

  • SFT 데이터셋에 포함되지 않은 New Prompts를 활용한 모델 응답 생성 단계 구축
  • 생성된 응답에 대해 사전 학습된 Reward Model이 스칼라 값의 보상을 할당하는 평가 메커니즘 적용
  • Reward Model의 신호를 강화 학습(Reinforcement Learning)의 보상 함수로 활용하여 Original Model의 가중치 업데이트
  • 부정적 보상을 최소화하고 긍정적 보상을 최대화하는 방향으로 정책 최적화를 통한 응답 정렬(Alignment) 수행
  • RLHF 루프를 통한 반복적 학습으로 정중함과 유용성을 갖춘 응답 생성 확률 밀도 제어

- 모델 정렬을 위한 별도의 Reward Model 설계 및 학습 여부 검토 - SFT 데이터셋 외의 Out-of-distribution 프롬프트를 통한 일반화 성능 검증 - 인간 선호도를 정량화한 보상 신호를 RL 알고리즘에 통합하는 파이프라인 구축

원문 읽기