피드로 돌아가기
Complete Guide to llm-d CNCF Sandbox — Kubernetes-Native Distributed LLM Inference
Dev.toDev.to
AI/ML

IBM, Red Hat, Google Cloud가 CNCF Sandbox에 기증한 llm-d가 Disaggregated Serving와 Hierarchical KV Cache Offloading으로 Kubernetes 환경의 GPU 활용도를 혁신한다

Complete Guide to llm-d CNCF Sandbox — Kubernetes-Native Distributed LLM Inference

daniel jeong2026년 4월 1일7advanced

Context

기존 vLLM 기반 LLM 추론은 단일 Pod 구조로 GPU 활용률이 40~60%에 머물렀다. KServe는 높은 수준의 추상화를 제공하지만 추론 인식 라우팅 기능이 부족했다.

Technical Solution

  • Endpoint Picker가 Prefix Hash 기반으로 요청을 라우팅하여 KV Cache 히트율을 최대화한다
  • Prefill Pool과 Decode Pool을 독립 Pod Pool로 분리하여 GPU 컴퓨zt와 메모리 대역폭을 각각 최적화한다
  • GPU HBM에서 CPU DRAM, NVMe SSD로 이어지는 3계층 KV Cache Offloading을 구현한다
  • LeaderWorkerSet 기반 Multi-Node Tensor Parallelism으로 단일 노드에 적재되지 않는 대규모 모델을 처리한다
  • Gateway API Inference Extension 스펙을 준수하는 CRD 기반 라우팅 구성을 지원한다

Impact

GPU 활용률이 기존 40~60% 수준에서 개선될 수 있다. TTFT와 TPOT 수치는 Open Benchmarking 프레임워크로 정량 측정 가능하다.

Key Takeaway

Kubernetes 환경의 LLM 추론에서 리소스 불균형, KV Cache 낭비, 라우팅 비효율은 Disaggregated Serving와 Prefix-cache-aware Routing으로 해결 가능하다.


Kubernetes 환경에서 대규모 LLM 추론 서비스를 운영할 때 Disaggregated Serving 패턴을 적용하여 Prefill과 Decode 리소스를 분리하면 GPU 활용도를 개선할 수 있다

원문 읽기