피드로 돌아가기
How Transformer Decoders Generate Text — From Causal Masking to Decoding
Dev.toDev.to
AI/ML

Autoregressive Loop와 Causal Masking을 통한 LLM 텍스트 생성 메커니즘 분석

How Transformer Decoders Generate Text — From Causal Masking to Decoding

zeromathai2026년 6월 23일7intermediate

Context

LLM의 텍스트 생성은 한 번에 완성되는 것이 아니라 이전 토큰을 기반으로 다음 토큰을 예측하는 순차적 구조를 가짐. 훈련 시 미래 토큰 참조로 인한 데이터 누수와 추론 시 발생하는 오차 누적 문제가 핵심 제약 사항으로 작용함.

Technical Solution

  • Causal Masking 적용을 통해 미래 토큰 접근을 차단함으로써 예측 시점 이전의 정보만 참조하는 인과적 구조 설계
  • Teacher Forcing 기법을 도입하여 훈련 단계에서 모델의 오답 대신 정답 토큰을 피드백함으로써 학습 안정성 확보
  • LM Head를 통한 Hidden State의 Vocabulary-sized Logits 변환으로 각 토큰의 발생 가능성을 수치화
  • Softmax 및 Temperature Scaling을 적용하여 확률 분포의 Sharpness를 조절함으로써 생성 텍스트의 결정론적 성격과 다양성 제어
  • Greedy Decoding, Beam Search, Top-k Sampling 등 Decoding Strategy를 통해 확률 분포에서 최종 토큰을 선택하는 결정 로직 구현

1. 생성 텍스트의 반복성 제거를 위해 Greedy Decoding 대신 Top-k/Top-p 샘플링 검토

2. 창의성 조절이 필요한 서비스라면 Temperature 파라미터를 통한 확률 분포 제어 적용

3. 추론 지연 시간(Latency) 최적화를 위해 순차적 생성 루프의 병목 지점 분석

4. 훈련-추론 간의 괴리(Training-Inference Gap)를 최소화하기 위한 Decoding 전략 튜닝

원문 읽기