피드로 돌아가기
Dev.toAI/ML
원문 읽기
Nemotron-Labs Diffusion 도입으로 LLM Throughput 6.4배 달성
Diffusion Language Models: How NVIDIA Nemotron-Labs Diffusion Shatters the Autoregressive Speed Ceiling
AI 요약
Context
Autoregressive 모델의 토큰 단위 생성 방식에 따른 Memory Bandwidth 병목 현상 발생. 낮은 Batch Size 환경에서 GPU 연산 코어 활용도가 급감하며, 생성된 토큰의 수정이 불가능한 Irreversibility 문제와 KV Cache 메모리 압박이 시스템 확장성을 저해함.
Technical Solution
- Token-by-Token 생성 방식을 탈피하여 전체 블록을 병렬로 생성하고 반복적으로 정제하는 Diffusion 구조 채택
- AR-to-DLM Conversion 기법을 통한 기존 Pretrained 모델의 Diffusion 모델 전환 가능성 확보
- Block-wise Attention 설계를 통한 병렬 처리 최적화 및 연산 효율 극대화
- Self-speculation 모드 도입으로 생성 속도와 정확도의 동적 균형 조절
- Linear Speculation 모드 적용을 통한 추론 Latency 단축 및 GPU Compute Core 활용률 제고
- Fill-in-the-middle(FIM) 작업 시 양방향 문맥을 동시에 고려하는 Iterative Refinement 프로세스 구축
Impact
- Autoregressive Baseline 대비 최대 6.4배의 Throughput 향상 달성
- Qwen3 8B 모델 대비 더 높은 수준의 정확도 구현
- 3B, 8B, 14B 모델 라인업을 통해 다양한 하드웨어 제약 환경에 대응 가능
Key Takeaway
순차적 생성이라는 아키텍처적 제약을 병렬 정제 방식으로 전환함으로써 Memory-bound 문제를 Compute-bound 영역으로 이동시켜 하드웨어 성능을 극한으로 활용함.
실천 포인트
- Latency 민감 서비스의 경우 Autoregressive 스택에서 Diffusion 기반 모델로의 전환 검토 - SGLang 내 단일 플래그 설정을 통한 DLM 모드 적용 및 Throughput Delta 측정 - BF16 정밀도 기반 3B 모델을 활용하여 소비자용 GPU에서의 추론 성능 벤치마크 수행