KV Caching 및 GQA 도입을 통한 LLM 추론 병목 해결 및 VRAM 최적화
How to Optimize LLM Inference with KV Caching
How to Optimize LLM Inference with KV Caching
MTP 도입을 통한 Gemma 4 코드 생성 속도 3배 향상 및 아키텍처 분석
SmolLM3: smol, multilingual, long-context reasoner
Optimizing your LLM in production