Self-speculation 기반 6.4배 TPF 향상 및 무손실 텍스트 생성 구현

Towards Speed-of-Light Text Generation with Nemotron-Labs Diffusion Language Models

2026년 5월 23일5분advanced

AI 요약

Context

Autoregressive(AR) 모델의 Token-by-token 생성 방식에 따른 Memory Wall 병목 현상 발생. 매 토큰 생성 시 전체 모델 가중치를 로드해야 하는 구조로 인해 GPU 연산 효율 저하 및 이전 토큰 수정 불가라는 설계적 한계 존재.

Technical Solution

AR 모델의 사전 학습 지식을 유지하면서 Diffusion 능력을 추가한 Joint AR-Diffusion Objective 학습 구조 채택
Block-wise Attention 메커니즘 도입을 통한 KV-cache 호환성 확보 및 병렬 디코딩 구현
Diffusion mode를 통한 32-token 블록 단위의 반복적 Denoising 및 Confidence Threshold 기반 토큰 확정 로직 적용
Self-speculation mode에서 Diffusion으로 Candidate를 Draft하고 AR로 Verify하는 하이브리드 검증 체계 설계
단일 체크포인트 내에서 AR, Diffusion, Self-speculation 세 가지 모드를 설정값으로 전환 가능한 유연한 배포 구조 구축
1.3T 토큰의 Pre-training과 45B 토큰의 SFT를 통한 Diffusion 모델의 고질적인 정확도 저하 문제 해결

실천 포인트

- Latency 민감 애플리케이션 설계 시 단순 모델 경량화 외에 Draft-and-Verify 구조의 Speculative Decoding 검토 - GPU Memory Bound 문제 해결을 위해 Token 단위가 아닌 Block 단위의 병렬 생성 메커니즘 적용 가능성 분석 - 추론 예산(Inference Budget) 조절이 필요한 경우 Diffusion Step 수를 동적으로 제어하는 런타임 설정 도입 고려

태그

#KV Caching #Self-speculation #Autoregressive #Diffusion Language Models #Tokens Per Forward pass

원문 읽기