피드로 돌아가기
Dev.toDevOps
원문 읽기
NVIDIA가 Disaggregated Inference 패턴 지원을 위해 Grove를 개발해 Kubernetes의 AI 추론 워크로드 멀티레벨 오토스케일링 구현
Orchestrating Kubernetes AI Inference Workloads with NVIDIA Grove — From DRA GA to KAI Scheduler Integration
AI 요약
Context
기존 Kubernetes는 Deployment + HPA 조합으로 단일 Pod 단위 관리만 지원했다. Prefill과 Decode 단계가 분리되고 각 컴포넌트가 독립적으로 확장되는 Disaggregated Inference 아키텍처에서는 컴포넌트 간 비율 유지가 필수이다. Pod 수준의 오토스케일링으로는 Prefill Worker 증가 시 Decode 용량을 비례적으로 늘리거나 컴포넌트 간 의존성을 표현할 수 없었다.
Technical Solution
- 3계층 CRD 모델 도입: PodCliqueSet(전체 서비스) → PodCliqueScalingGroup(함께 확장되는 그룹) → PodClique(역할별 Pod 그룹)으로 계층화해 관심사를 분리
- 역할별 Pod 그룹 관리: Prefill Leader, Prefill Worker, Decode Leader, Decode Worker 각각에 독립적인 설정과 스케일링 로직 적용
- 멀티레벨 오토스케일링: 개별 컴포넌트 레벨(Prefill 큐 증가 감지), 그룹 레벨(Leader와 Worker 함께 확장), 서비스 레벨(전체 처리량 부족) 3가지에서 동시 확장
- 유연한 Gang 스케줄링: 최소 실행 가능한 컴포넌트 조합을 보장하면서 워크로드 패턴에 따라 Prefill과 Decode를 다른 비율로 확장
- 토폴로지 인식 배치: KAI Scheduler와 통합해 GPU 토폴로지를 고려한 배치로 같은 NVLink 도메인에 관련 Pod을 배치해 KV-Cache 전송 레이턴시 단축
- 명시적 시작 순서 관리: Worker 시작 전 Leader 준비 완료 보장, 실패 시 시스템 레벨 재연결, 롤링 업데이트 중 네트워크 토폴로지 보존
Key Takeaway
Kubernetes에서 AI 추론 워크로드가 첫 번째 클래스 시민으로 자리잡으면서, 단순 Pod 관리를 넘어 멀티컴포넌트 시스템의 선언적 정의와 조율이 필수 역량이 되었다. Grove, DRA, KAI Scheduler로 구성된 새로운 오케스트레이션 스택이 AI 인프라의 복잡성을 관리하는 표준 패턴으로 진화하고 있다.
실천 포인트
LLM 추론 서비스를 Kubernetes에서 운영하는 DevOps/MLOps 팀은 Disaggregated Inference 패턴으로 설계할 때 Grove의 3계층 CRD 모델을 적용하면 Prefill과 Decode 간 스케일링 비율을 자동으로 유지하고 수동 조정 없이 토폴로지 인식 배치를 통해 KV-Cache 전송 레이턴시를 단축할 수 있다.