피드로 돌아가기
Gemma4 Speculative Decoding with n-gram
Dev.toDev.to
AI/ML

Gemma 4 MoE + N-Gram 도입으로 TTFT 2.5배 개선 및 47.5만 TPS 달성

Gemma4 Speculative Decoding with n-gram

xbill2026년 5월 13일2advanced

Context

기존 4-layer proxy 모델 기반의 낮은 추론 품질과 느린 응답 속도가 병목으로 작용함. TPU v6e-4 환경에서 vLLM의 MTP 기반 Speculative Decoding 미지원으로 인한 대안적 가속 전략이 필요했던 상황임.

Technical Solution

  • 26B MoE 아키텍처 도입을 통한 추론 지능 및 모델 Fidelity 확보
  • TPU v6e-4의 Matrix Unit 최적화를 통한 Active Parameter 3.8B 경로 효율 극대화
  • MTP의 대안으로 N-Gram Speculative Decoding을 적용하여 추론 속도 및 처리량 유지
  • HBM 128GB 제약 조건 하에 모델 가중치(52GB)와 KV Cache 간의 메모리 밸런싱 최적화
  • JAX 컴파일 단계의 RESOURCE_EXHAUSTED 에러 방지를 위해 Context Window를 32K로 조정하여 안정성 확보

Impact

  • Interactive TTFT: 0.800s에서 0.326s로 2.5배 단축
  • Peak Throughput: 475,833 tokens/sec 달성 (기존 대비 +2.7% 향상)
  • 동시 접속자 1,024명 환경에서도 N-Gram 기반의 안정적인 성능 유지

Key Takeaway

하드웨어의 물리적 메모리 한계(HBM) 내에서 모델 파라미터 규모와 Context Window 사이의 Trade-off를 정밀하게 제어하는 것이 대규모 MoE 모델 서빙의 핵심임.


1. TPU/GPU 가속기 사용 시 프레임워크가 지원하지 않는 가속 기법(MTP 등) 대신 N-Gram 같은 대체 Speculative Decoding 검토

2. MoE 모델 도입 시 전체 파라미터 규모보다 실제 연산에 참여하는 Active Parameter의 하드웨어 최적화 수준 확인

3. Context Window 확장 시 단순 이론값이 아닌 JAX/CUDA 컴파일 단계의 메모리 할당량(HBM) 기반 임계치 설정

원문 읽기