SFT의 Overfitting 한계 극복을 위한 RLHF 기반 모델 Aligning 전략

Understanding Reinforcement Learning with Human Feedback Part 2: Aligning Pretrained Models

Rijul Rajesh2026년 5월 19일2분intermediate

AI 요약

Context

Next Token Prediction 중심의 Pre-training 모델이 가진 인간 소통 능력 부족 및 Aligning 부재 문제. 단순 학습만으로는 Assistant로서의 유용한 응답 생성 능력을 확보하기 어려운 구조적 한계 존재.

Technical Solution

인간이 작성한 Prompt-Response 쌍을 활용한 Supervised Fine-Tuning(SFT) 수행을 통한 Assistant 동작 방식 학습
Standard Backpropagation 적용으로 Pre-trained 모델을 인간의 소통 방식에 Aligning 하는 구조 설계
SFT 데이터셋의 소규모 특성으로 인해 발생하는 Overfitting 문제 및 일반화 성능 저하 식별
데이터 수집 비용 상승 문제를 회피하기 위한 Reinforcement Learning with Human Feedback(RLHF) 도입 결정
학습 데이터 외부의 새로운 Prompt에 대해서도 유연하게 대응하는 Generalization 능력 확보 전략 수립

실천 포인트

- SFT 적용 시 학습 데이터 규모와 모델 파라미터 간 균형을 검토하여 Overfitting 가능성 확인 - 고비용의 수동 데이터 라벨링 대체 수단으로 RLHF 등 피드백 기반 학습 루프 설계 검토 - 모델의 응답 품질을 단순 정확도가 아닌 Helpful, Polite 등의 인간 중심 지표로 평가하는 체계 구축

태그

#RLHF #Alignment #SFT #Generalization #Overfitting

원문 읽기