Grafted-head 기반 DSpark를 통한 Lossless 추론 성능 2-4배 가속

DeepSeek's DSpark Brings Speculative Decoding Back Into the Spotlight — Here's What Developers Need to Know

LiVanGy2026년 6월 28일4분advanced

AI 요약

Context

기존 Speculative Decoding은 별도의 Draft Model을 유지하는 구조로 인해 레이어 중복과 메모리 대역폭 병목 현상이 발생함. Draft Model이 Target Model의 분포를 정확히 모방해야 하는 학습 난이도로 인해 실제 프로덕션 적용에 제약이 존재함.

Technical Solution

별도의 외부 모델 대신 Target Model의 중간 표현(Intermediate Representations)을 재사용하는 Grafted-head 구조 설계
Target Model의 내부 지식을 직접 활용하여 Draft Model의 분포 일치 성능을 개선하고 레이어 중복을 제거함
Multi-Token Prediction(MTP)과 상호 보완적인 구조를 채택하여 MTP 출력값을 재사용하는 효율적 추론 경로 구축
Target Model의 단일 Forward Pass로 모든 Speculative Token을 검증하는 Lossless 검증 메커니즘 적용
H100 및 DGX Spark 하드웨어의 메모리 대역폭 최적화를 통해 Draft Pass의 오버헤드를 최소화함

실천 포인트

- 현재 Speculative Decoding의 Token Acceptance Rate가 50% 미만인 경우 Grafted-head 도입 검토 - DeepSeek-V3, Qwen 등 MTP 지원 모델 사용 시 DSpark의 추가 비용 없는 성능 이득 확인 - 도입 전 Target Model의 출력 분포에 맞춘 Speculative Head의 Fine-tuning 비용과 추론 절감액의 ROI 분석 수행

태그

#Grafted-head #Speculative Decoding #Lossless #MTP #Inference Optimization

원문 읽기