Temperature 제어를 통한 확률적 텍스트 생성 루프 구현 및 KV Cache 최적화

Chapter 12: Inference - Generating New Text

Gary Jackson2026년 5월 2일12분intermediate

AI 요약

Context

학습된 Transformer 모델을 기반으로 새로운 텍스트를 생성하는 Inference 단계의 설계 필요성 대두. 단순 예측을 넘어 생성물의 다양성과 일관성 사이의 Trade-off를 제어할 수 있는 메커니즘이 요구됨.

BOS(Beginning of Sequence) 토큰으로 시작하여 모델이 스스로 BOS를 출력하거나 최대 길이에 도달할 때까지 반복하는 Auto-regressive 루프 설계
model.CreateKvCache()를 통한 KV Cache 자동 생성으로 레이어 수에 관계없이 호출자가 메모리를 관리하는 캡슐화 구조 채택
Logits를 Temperature 값으로 나누어 확률 분포의 Sharpness를 조절함으로써 생성물의 보수성(T < 1.0)과 창의성(T > 1.0)을 제어
부동 소수점 오차로 인한 확률 합산 불일치 해결을 위해 전체 확률 합(Total Prob)을 기준으로 Random Value를 재스케일링하는 정밀 샘플링 로직 적용
Softmax 함수를 통해 Logits를 확률 분포로 변환한 후 누적 합산 방식을 통한 Token 선택 프로세스 구현

실천 포인트

1. Temperature 설정을 통해 도메인 특성에 맞는 생성 전략 수립(정답 중심은

0.1~

0.5, 창의적 생성은

1.0 이상)

2. Inference 루프 설계 시 KV Cache를 활용한 중복 계산 제거 및 메모리 효율성 검토

3. 부동 소수점 연산 누적으로 인한 확률 합산 오차 방지를 위한 Rescaling 로직 적용

태그