피드로 돌아가기
Dev.toAI/ML
원문 읽기
IBM, Red Hat, Google Cloud가 CNCF Sandbox에 기증한 llm-d가 Disaggregated Serving와 Hierarchical KV Cache Offloading으로 Kubernetes 환경의 GPU 활용도를 혁신한다
Complete Guide to llm-d CNCF Sandbox — Kubernetes-Native Distributed LLM Inference
AI 요약
Context
기존 vLLM 기반 LLM 추론은 단일 Pod 구조로 GPU 활용률이 40~60%에 머물렀다. KServe는 높은 수준의 추상화를 제공하지만 추론 인식 라우팅 기능이 부족했다.
Technical Solution
- Endpoint Picker가 Prefix Hash 기반으로 요청을 라우팅하여 KV Cache 히트율을 최대화한다
- Prefill Pool과 Decode Pool을 독립 Pod Pool로 분리하여 GPU 컴퓨zt와 메모리 대역폭을 각각 최적화한다
- GPU HBM에서 CPU DRAM, NVMe SSD로 이어지는 3계층 KV Cache Offloading을 구현한다
- LeaderWorkerSet 기반 Multi-Node Tensor Parallelism으로 단일 노드에 적재되지 않는 대규모 모델을 처리한다
- Gateway API Inference Extension 스펙을 준수하는 CRD 기반 라우팅 구성을 지원한다
Impact
GPU 활용률이 기존 40~60% 수준에서 개선될 수 있다. TTFT와 TPOT 수치는 Open Benchmarking 프레임워크로 정량 측정 가능하다.
Key Takeaway
Kubernetes 환경의 LLM 추론에서 리소스 불균형, KV Cache 낭비, 라우팅 비효율은 Disaggregated Serving와 Prefix-cache-aware Routing으로 해결 가능하다.
실천 포인트
Kubernetes 환경에서 대규모 LLM 추론 서비스를 운영할 때 Disaggregated Serving 패턴을 적용하여 Prefill과 Decode 리소스를 분리하면 GPU 활용도를 개선할 수 있다