Microsoft가 KubeCon 2026에서 Kubernetes 네이티브 GPU 스케줄링(DRA GA), 모델 배포 추상화(AI Runway), Sidecar 제거 보안(Cilium mTLS)을 발표해 AI 인프라 통합 플랫폼으로의 진화 가속

Microsoft at KubeCon 2026 — DRA GA, AI Runway, and Kubernetes as AI Infrastructure OS

정주신2026년 3월 28일5분intermediate

AI 요약

Context

Kubernetes 클러스터에서 GPU 할당은 nvidia.com/gpu 같은 정적 리소스 명세에 의존했으며, 이는 공급업체별 다른 스케줄링 방식을 초래했다. ML 엔지니어들은 Kubernetes YAML을 직접 작성해야 모델을 배포했고, Sidecar 프록시는 GPU 노드에서 CPU와 메모리 오버헤드를 발생시켰다.

Technical Solution

GPU 스케줄링을 정적 방식에서 동적 방식으로 변경: nvidia.com/gpu → DeviceClass와 ResourceClaim 추상화 기반으로 전환
토폴로지 인식 배치 도입: GPU와 NIC(Network Interface Card) 간 물리적 근접성 기반 최적화 스케줄링, DRANet을 통해 Azure RDMA NIC와 업스트림 호환성 확보
Kubernetes 1.36에 Workload Aware Scheduling 통합: DRA 지원을 Workload API에 추가하고 KubeRay와의 통합 강화
AI Runway(오픈소스) 배포: 웹 인터페이스를 통해 ML 엔지니어가 YAML 없이 모델 배포, HuggingFace 모델 카탈로그 내장, GPU 메모리 호환성 메트릭과 실시간 비용 추정 제공, NVIDIA Dynamo/KubeRay/llm-d/KAITO 등 다중 추론 런타임 지원
Cilium Sidecar 제거: X.509 인증서와 SPIRE 기반 관리를 사용한 eBPF 기반 mTLS ztunnel 구현, Pod 간 암호화 통신 실현
AKS 네트워킹 보안 강화: Meshless Istio, WireGuard 암호화, Cilium mTLS 추가 옵션 제공
AKS 운영 개선: Blue-Green agent pool 업그레이드로 병렬 검증, agent pool 롤백 기능, Prepared Image Specification으로 노드 프로비저닝 가속화
AKS 가시성 확대: GPU 성능/사용률 메트릭을 관리형 Prometheus/Grafana와 통합, L3/L4 및 L7(HTTP, gRPC, Kafka) 네트워크 가시성 추가, Kubernetes Custom Resource를 통한 동적 컨테이너 레벨 메트릭 수집

Key Takeaway

Kubernetes는 GPU 스케줄링, 모델 서빙, 네트워킹, 보안, 가시성, 생명주기 관리를 통합하는 단일 AI 인프라 플랫폼으로 진화 중이며, 특히 DRA의 토폴로지 인식 스케줄링과 Sidecar 제거는 GPU 리소스 활용도와 성능을 동시에 개선하는 핵심 설계 패턴이다.

실천 포인트

GPU 워크로드를 운영하는 팀에서 nvidia.com/gpu 기반 정적 할당을 DeviceClass/ResourceClaim 기반 동적 할당으로 마이그레이션하면 토폴로지 인식 스케줄링과 리소스 공유를 통해 GPU 사용률을 개선할 수 있다. ML 팀과 플랫폼 팀 간 갭이 큰 조직에서는 AI Runway를 도입해 ML 엔지니어가 YAML 없이 모델을 배포하는 자서비스 추론 플랫폼을 신속하게 구축할 수 있다. Sidecar 프록시 오버헤드가 문제인 경우, Cilium의 Sidecar 제거 mTLS을 검토하면 GPU 노드의 CPU/메모리 압력을 경감할 수 있다.

태그

#Cilium #AI Infrastructure #DRA #GPU-Scheduling #Kubernetes

원문 읽기