피드로 돌아가기
Speculative decoding: when and why it actually speeds up inference
Dev.toDev.to
AI/ML

Speculative Decoding 도입으로 p50 TTFT 380ms에서 140ms로 단축

Speculative decoding: when and why it actually speeds up inference

Tech_Nuggets2026년 6월 5일11advanced

Context

Llama 3 70B 모델 기반 추론 시 GPU 연산량(FLOPs)보다 HBM에서 SM으로의 가중치 및 KV-cache 이동 속도가 병목인 Memory-bound 상황 발생. 단일 토큰 생성 방식의 파이프라인으로 인해 GPU 이용률이 높음에도 불구하고 사용자 체감 지연 시간이 증가하는 한계 노출.

Technical Solution

  • Draft Model($M_q$)을 통한 K개 후보 토큰의 사전 생성으로 추론 단위를 다중 토큰으로 확장
  • Target Model($M_p$)의 단일 Forward Pass를 통한 K+1개 위치의 병렬 검증 및 수락 확률($r$) 계산
  • Target Model의 확률 분포와 일치하는 토큰만 수락하고 거절 시 잔여 분포에서 Resampling 하는 Exact Decoding 메커니즘 적용
  • 토큰 수준이 아닌 Hidden-state 예측 기반의 EAGLE-3 구조를 채택하여 수락률 및 생성 길이 극대화
  • Memory-bound 환경에서 모델 가중치 로드 횟수를 1/K 수준으로 줄여 지연 시간 최적화

Impact

  • 동일 하드웨어 및 가중치 조건에서 p50 TTFT 380ms에서 140ms로 개선

Key Takeaway

LLM 추론 병목의 본질이 Compute-bound가 아닌 Memory-bound일 때, 작은 모델로 후보를 제안하고 큰 모델로 한 번에 검증하는 구조를 통해 출력 품질 손실 없이 추론 속도를 개선 가능


- 평균 수락 토큰 수($\mu$)가 2 미만인 경우 Draft 모델 비용이 더 크므로 도입 제외 - 고온도(High-temperature) 설정이나 짧은 문장 생성 환경에서는 Prefix Caching 및 KV-cache Quantization 우선 검토 - Llama 계열 모델 사용 시 일반 목적의 성능이 가장 뛰어난 EAGLE-3 헤드 적용 권장 - FlashInfer, FP8, Paged Attention 등 기존 Serving 스택과의 설정 호환성 확인 필수

원문 읽기