피드로 돌아가기
NVIDIA's Nemotron Diffusion: One Model, Three Generation Modes, 6 Faster
Dev.toDev.to
AI/ML

단일 Checkpoint로 6.4배 Throughput 향상을 구현한 Nemotron Diffusion

NVIDIA's Nemotron Diffusion: One Model, Three Generation Modes, 6 Faster

Andrew Kew2026년 5월 23일3advanced

Context

기존 Autoregressive 모델의 Token-by-token 생성 방식에 따른 Memory Bound 병목 현상 발생. 특히 Low Batch Size 환경에서 GPU Compute 자원 활용도가 저하되는 구조적 한계 존재.

Technical Solution

  • Pretrained AR 모델 기반의 Joint AR + Diffusion Objective 학습을 통한 단일 Checkpoint 통합 설계
  • Parallel Drafting 기법을 도입하여 32-token Block 단위의 Iterative Denoising 수행
  • Diffusion으로 생성한 Block을 AR로 검증하는 Self-speculation 구조를 통한 Lossless 성능 확보
  • Deployment 시 Config 변경만으로 Autoregressive, Diffusion, Self-speculative 모드 전환 가능
  • 1.3T Tokens 기반의 Continuous Pretraining을 통한 AR 성능 유지 및 Diffusion 능력 추가
  • 별도의 Draft 모델 유지보수가 필요 없는 통합 가중치 구조 설계

Impact

  • Standard AR Decoding 대비 최대 6.4배의 Token Throughput 달성
  • H100/B200 환경에서 Self-speculative 모드 적용 시 약 865 tok/s 처리 속도 기록
  • AR Baseline 대비 4~6배의 성능 향상 달성 및 Qwen3 8B 수준의 Benchmark 정확도 유지

1. Low Batch Size 기반의 Latency 민감 애플리케이션에서 Self-speculative 모드 벤치마크 수행

2. SGLang Integration 완료 후 API Layer 수정 없이 기존 모델을 Nemotron으로 교체 검토

3. 별도의 Draft 모델 운영 오버헤드를 줄이기 위한 통합 가중치 아키텍처 도입 가능성 분석

원문 읽기