IBM, Red Hat, Google Cloud가 CNCF Sandbox에 기증한 llm-d가 Disaggregated Serving와 Hierarchical KV Cache Offloading으로 Kubernetes 환경의 GPU 활용도를 혁신한다

Complete Guide to llm-d CNCF Sandbox — Kubernetes-Native Distributed LLM Inference

daniel jeong2026년 4월 1일7분advanced

AI 요약

Context

기존 vLLM 기반 LLM 추론은 단일 Pod 구조로 GPU 활용률이 40~60%에 머물렀다. KServe는 높은 수준의 추상화를 제공하지만 추론 인식 라우팅 기능이 부족했다.

GPU 활용률이 기존 40~60% 수준에서 개선될 수 있다. TTFT와 TPOT 수치는 Open Benchmarking 프레임워크로 정량 측정 가능하다.

Kubernetes 환경의 LLM 추론에서 리소스 불균형, KV Cache 낭비, 라우팅 비효율은 Disaggregated Serving와 Prefix-cache-aware Routing으로 해결 가능하다.

실천 포인트

Kubernetes 환경에서 대규모 LLM 추론 서비스를 운영할 때 Disaggregated Serving 패턴을 적용하여 Prefill과 Decode 리소스를 분리하면 GPU 활용도를 개선할 수 있다

태그