피드로 돌아가기
Understanding Reinforcement Learning with Human Feedback Part 2: Aligning Pretrained Models
Dev.toDev.to
AI/ML

SFT의 Overfitting 한계 극복을 위한 RLHF 기반 모델 Aligning 전략

Understanding Reinforcement Learning with Human Feedback Part 2: Aligning Pretrained Models

Rijul Rajesh2026년 5월 19일2intermediate

Context

Next Token Prediction 중심의 Pre-training 모델이 가진 인간 소통 능력 부족 및 Aligning 부재 문제. 단순 학습만으로는 Assistant로서의 유용한 응답 생성 능력을 확보하기 어려운 구조적 한계 존재.

Technical Solution

  • 인간이 작성한 Prompt-Response 쌍을 활용한 Supervised Fine-Tuning(SFT) 수행을 통한 Assistant 동작 방식 학습
  • Standard Backpropagation 적용으로 Pre-trained 모델을 인간의 소통 방식에 Aligning 하는 구조 설계
  • SFT 데이터셋의 소규모 특성으로 인해 발생하는 Overfitting 문제 및 일반화 성능 저하 식별
  • 데이터 수집 비용 상승 문제를 회피하기 위한 Reinforcement Learning with Human Feedback(RLHF) 도입 결정
  • 학습 데이터 외부의 새로운 Prompt에 대해서도 유연하게 대응하는 Generalization 능력 확보 전략 수립

- SFT 적용 시 학습 데이터 규모와 모델 파라미터 간 균형을 검토하여 Overfitting 가능성 확인 - 고비용의 수동 데이터 라벨링 대체 수단으로 RLHF 등 피드백 기반 학습 루프 설계 검토 - 모델의 응답 품질을 단순 정확도가 아닌 Helpful, Polite 등의 인간 중심 지표로 평가하는 체계 구축

원문 읽기