피드로 돌아가기
Dev.toAI/ML
원문 읽기
Speculative Decoding의 한계 돌파, DFlash로 구현한 병렬 토큰 생성
Speculative Decoding’s Ceiling Just Moved With DFlash
AI 요약
Context
기존 Speculative Decoding은 Drafter 모델의 순차적 생성 구조로 인해 지연 시간이 누적되는 한계 존재. Verifier는 병렬 처리가 가능하나 Drafter가 토큰별 Latency를 지불하는 구조적 병목 발생. Drafter의 성능 향상을 위해 모델을 경량화하면 초안 품질이 저하되는 트레이드오프 직면.
Technical Solution
- Autoregressive 방식의 Drafter를 Block Diffusion 모델로 교체하여 토큰 묶음을 한 번에 생성하는 병렬 구조 설계
- 단일 Denoising Step을 통해 16개 토큰 블록을 한 번의 Forward Pass로 생성하여 순차적 생성 단계 제거
- Target 모델의 여러 레이어에서 Hidden Features를 샘플링하고 이를 Compact Representation으로 투영하여 Drafter의 조건부 입력으로 활용
- Target 모델의 내부 상태를 활용함으로써 단순 프롬프트 기반 예측보다 높은 토큰 수용률(Acceptance Rate) 확보
- SGLang 및 vLLM과의 통합을 통해 서빙 스택 수준에서 Hidden Feature 경로를 신호로 활용하는 아키텍처 구현
Impact
- 특정 설정 기준 6배 이상의 Lossless Acceleration 달성
- Qwen3-8B 모델에서 EAGLE-3 대비 최대 2.5배 높은 가속 성능 기록
Key Takeaway
최적화의 한계는 개별 커널 튜닝이 아닌 근본적인 데이터 흐름의 순차적 구조에서 기인함. 생성 프로세스를 순차적 단계에서 병렬 블록 단위로 전환함으로써 비용 구조 자체를 변경하는 아키텍처적 접근의 중요성 확인.
실천 포인트
LLM 서빙 가속화 시 Drafter의 깊이와 생성 속도 간 트레이드오프가 발생한다면, Block Diffusion 기반의 병렬 생성 도입을 검토할 것