Reward Model 기반 RLHF를 통한 LLM 정렬 및 응답 품질 최적화

Understanding Reinforcement Learning with Human Feedback Part 6: How the Reward Model Trains the Original Model

Rijul Rajesh2026년 5월 26일1분intermediate

AI 요약

Context

Supervised Fine-Tuning(SFT) 데이터셋 외부의 새로운 프롬프트 입력 시 모델 응답의 일관성 부족 및 인간 선호도 불일치 발생. 단순 텍스트 생성 방식으로는 사용자의 의도에 부합하는 유용한 응답을 지속적으로 생성하는 데 한계 존재.

SFT 데이터셋에 포함되지 않은 New Prompts를 활용한 모델 응답 생성 단계 구축
생성된 응답에 대해 사전 학습된 Reward Model이 스칼라 값의 보상을 할당하는 평가 메커니즘 적용
Reward Model의 신호를 강화 학습(Reinforcement Learning)의 보상 함수로 활용하여 Original Model의 가중치 업데이트
부정적 보상을 최소화하고 긍정적 보상을 최대화하는 방향으로 정책 최적화를 통한 응답 정렬(Alignment) 수행
RLHF 루프를 통한 반복적 학습으로 정중함과 유용성을 갖춘 응답 생성 확률 밀도 제어

실천 포인트

- 모델 정렬을 위한 별도의 Reward Model 설계 및 학습 여부 검토 - SFT 데이터셋 외의 Out-of-distribution 프롬프트를 통한 일반화 성능 검증 - 인간 선호도를 정량화한 보상 신호를 RL 알고리즘에 통합하는 파이프라인 구축

태그