MTP 기반 Speculative Decoding으로 Gemma 4 추론 속도 최대 2.2배 향상

Google LiteRT-LM Speeds Up Local Inference Up to 2.2x With Gemma 4 Multi-Token Prediction

Sergio De Simone2026년 6월 5일3분advanced

AI 요약

Context

On-device LLM 구동 시 제한적인 Memory 및 Compute 자원과 하드웨어 파편화로 인한 성능 제약 발생. 특히 Primary 모델과 Drafter 모델 간의 데이터 전송 오버헤드가 추론 지연의 핵심 병목으로 작용.

Technical Solution

Speculative Decoding 도입을 통한 Multi-Token Prediction(MTP) 구현으로 여러 토큰의 병렬 생성 및 단일 패스 검증 수행
Primary 모델과 MTP Drafter를 동일 Hardware IP(GPU 등)에 배치하여 Memory Locality 확보 및 Cross-IP 동기화 Latency 제거
Shared KV Cache 및 Activation의 로컬 메모리 관리를 통한 CPU-GPU 간 데이터 전송 최소화
Per-layer Embedding의 메모리 상주 배제 및 Encoder의 Dynamic Loading 방식을 통한 메모리 Footprint 최적화
KV Cache 상태의 Save/Restore 기능을 Session Management 핵심 기능으로 구현하여 재계산 비용 절감
XNNPACK 및 MLDrift 커널 최적화를 통한 하드웨어 가속 성능 극대화

실천 포인트

- 추론 가속을 위해 Speculative Decoding 도입 시 Drafter와 Primary 모델의 메모리 배치 전략 검토 - 잦은 컨텍스트 전환이 발생하는 서비스의 경우 KV Cache 상태 저장 및 복구 메커니즘 설계 반영 - 하드웨어 제약 환경에서 고정적 메모리 할당 대신 필요한 시점에만 로드하는 Dynamic Loading 구조 적용

태그

#Multi-token Prediction #KV Cache #Memory Locality #Speculative Decoding #On-Device AI

원문 읽기