피드로 돌아가기
Dev.toAI/ML
원문 읽기
Gemma 4 MoE + N-Gram 도입으로 TTFT 2.5배 개선 및 47.5만 TPS 달성
Gemma4 Speculative Decoding with n-gram
AI 요약
Context
기존 4-layer proxy 모델 기반의 낮은 추론 품질과 느린 응답 속도가 병목으로 작용함. TPU v6e-4 환경에서 vLLM의 MTP 기반 Speculative Decoding 미지원으로 인한 대안적 가속 전략이 필요했던 상황임.
Technical Solution
- 26B MoE 아키텍처 도입을 통한 추론 지능 및 모델 Fidelity 확보
- TPU v6e-4의 Matrix Unit 최적화를 통한 Active Parameter 3.8B 경로 효율 극대화
- MTP의 대안으로 N-Gram Speculative Decoding을 적용하여 추론 속도 및 처리량 유지
- HBM 128GB 제약 조건 하에 모델 가중치(52GB)와 KV Cache 간의 메모리 밸런싱 최적화
- JAX 컴파일 단계의 RESOURCE_EXHAUSTED 에러 방지를 위해 Context Window를 32K로 조정하여 안정성 확보
Impact
- Interactive TTFT: 0.800s에서 0.326s로 2.5배 단축
- Peak Throughput: 475,833 tokens/sec 달성 (기존 대비 +2.7% 향상)
- 동시 접속자 1,024명 환경에서도 N-Gram 기반의 안정적인 성능 유지
Key Takeaway
하드웨어의 물리적 메모리 한계(HBM) 내에서 모델 파라미터 규모와 Context Window 사이의 Trade-off를 정밀하게 제어하는 것이 대규모 MoE 모델 서빙의 핵심임.
실천 포인트
1. TPU/GPU 가속기 사용 시 프레임워크가 지원하지 않는 가속 기법(MTP 등) 대신 N-Gram 같은 대체 Speculative Decoding 검토
2. MoE 모델 도입 시 전체 파라미터 규모보다 실제 연산에 참여하는 Active Parameter의 하드웨어 최적화 수준 확인
3. Context Window 확장 시 단순 이론값이 아닌 JAX/CUDA 컴파일 단계의 메모리 할당량(HBM) 기반 임계치 설정