Nemotron-Labs Diffusion 도입으로 LLM Throughput 6.4배 달성

Diffusion Language Models: How NVIDIA Nemotron-Labs Diffusion Shatters the Autoregressive Speed Ceiling

Manoranjan Rajguru2026년 5월 23일25분advanced

AI 요약

Context

Autoregressive 모델의 토큰 단위 생성 방식에 따른 Memory Bandwidth 병목 현상 발생. 낮은 Batch Size 환경에서 GPU 연산 코어 활용도가 급감하며, 생성된 토큰의 수정이 불가능한 Irreversibility 문제와 KV Cache 메모리 압박이 시스템 확장성을 저해함.

Technical Solution

Token-by-Token 생성 방식을 탈피하여 전체 블록을 병렬로 생성하고 반복적으로 정제하는 Diffusion 구조 채택
AR-to-DLM Conversion 기법을 통한 기존 Pretrained 모델의 Diffusion 모델 전환 가능성 확보
Block-wise Attention 설계를 통한 병렬 처리 최적화 및 연산 효율 극대화
Self-speculation 모드 도입으로 생성 속도와 정확도의 동적 균형 조절
Linear Speculation 모드 적용을 통한 추론 Latency 단축 및 GPU Compute Core 활용률 제고
Fill-in-the-middle(FIM) 작업 시 양방향 문맥을 동시에 고려하는 Iterative Refinement 프로세스 구축

Impact

Autoregressive Baseline 대비 최대 6.4배의 Throughput 향상 달성
Qwen3 8B 모델 대비 더 높은 수준의 정확도 구현
3B, 8B, 14B 모델 라인업을 통해 다양한 하드웨어 제약 환경에 대응 가능

Key Takeaway

순차적 생성이라는 아키텍처적 제약을 병렬 정제 방식으로 전환함으로써 Memory-bound 문제를 Compute-bound 영역으로 이동시켜 하드웨어 성능을 극한으로 활용함.

실천 포인트

- Latency 민감 서비스의 경우 Autoregressive 스택에서 Diffusion 기반 모델로의 전환 검토 - SGLang 내 단일 플래그 설정을 통한 DLM 모드 적용 및 Throughput Delta 측정 - BF16 정밀도 기반 3B 모델을 활용하여 소비자용 GPU에서의 추론 성능 벤치마크 수행

태그

#AR-to-DLM Conversion #Diffusion Language Models #SGLang #Throughput #Memory Bandwidth

원문 읽기