피드로 돌아가기
Understanding Reinforcement Learning with Human Feedback Part 1: Pre-Training Large Language Models
Dev.toDev.to
AI/ML

LLM 성능 고도화를 위한 Pre-Training 기반 Next Token Prediction 구조 분석

Understanding Reinforcement Learning with Human Feedback Part 1: Pre-Training Large Language Models

Rijul Rajesh2026년 5월 18일2beginner

Context

Random Value로 초기화된 Decoder-only Transformer 모델의 언어 이해 능력 부재 해결 필요. 단순 텍스트 예측 모델로는 Chatbot에 필요한 유익함과 안전성 및 대화형 응답 능력 확보에 한계 존재.

Technical Solution

  • Wikipedia 등 대규모 말뭉치를 활용한 Pre-Training 단계 설계
  • 이전 토큰들을 입력값으로 사용하여 다음 토큰을 예측하는 Next Token Prediction 로직 구현
  • 반복 학습을 통한 Grammar, Sentence Structure, Facts 및 언어 패턴의 내재화
  • 대규모 데이터셋 기반의 확률적 분포 학습을 통한 Pretrained Model 생성
  • 단순 예측 모델을 Human Expectation에 맞게 조정하기 위한 Alignment 필요성 식별

- 도메인 특화 모델 구축 시 대규모 Raw Data 기반의 Pre-Training 단계 필수 검토 - 모델의 단순 예측 성능과 실제 서비스 목적(Chatbot 등) 간의 Alignment 간극 확인 - Decoder-only Transformer 구조의 토큰 예측 메커니즘 최적화 여부 점검

원문 읽기