피드로 돌아가기
Dev.toAI/ML
원문 읽기
단일 Checkpoint로 6.4배 Throughput 향상을 구현한 Nemotron Diffusion
NVIDIA's Nemotron Diffusion: One Model, Three Generation Modes, 6 Faster
AI 요약
Context
기존 Autoregressive 모델의 Token-by-token 생성 방식에 따른 Memory Bound 병목 현상 발생. 특히 Low Batch Size 환경에서 GPU Compute 자원 활용도가 저하되는 구조적 한계 존재.
Technical Solution
- Pretrained AR 모델 기반의 Joint AR + Diffusion Objective 학습을 통한 단일 Checkpoint 통합 설계
- Parallel Drafting 기법을 도입하여 32-token Block 단위의 Iterative Denoising 수행
- Diffusion으로 생성한 Block을 AR로 검증하는 Self-speculation 구조를 통한 Lossless 성능 확보
- Deployment 시 Config 변경만으로 Autoregressive, Diffusion, Self-speculative 모드 전환 가능
- 1.3T Tokens 기반의 Continuous Pretraining을 통한 AR 성능 유지 및 Diffusion 능력 추가
- 별도의 Draft 모델 유지보수가 필요 없는 통합 가중치 구조 설계
Impact
- Standard AR Decoding 대비 최대 6.4배의 Token Throughput 달성
- H100/B200 환경에서 Self-speculative 모드 적용 시 약 865 tok/s 처리 속도 기록
- AR Baseline 대비 4~6배의 성능 향상 달성 및 Qwen3 8B 수준의 Benchmark 정확도 유지
실천 포인트
1. Low Batch Size 기반의 Latency 민감 애플리케이션에서 Self-speculative 모드 벤치마크 수행
2. SGLang Integration 완료 후 API Layer 수정 없이 기존 모델을 Nemotron으로 교체 검토
3. 별도의 Draft 모델 운영 오버헤드를 줄이기 위한 통합 가중치 아키텍처 도입 가능성 분석