Karpenter와 Dragonfly 기반 GPU Scale-to-Zero로 Warm Start 7s 달성

Production-Ready GPU Inference Autoscaling on EKS with Karpenter, KEDA, and Dragonfly

Mark Johnson2026년 5월 17일32분advanced

AI 요약

Context

GPU 인스턴스의 높은 비용과 트래픽 변동성으로 인해 상시 가동 시 비용 낭비가 심각한 상황. 특히 대용량 모델 이미지로 인한 ECR 대역폭 병목과 느린 Cold Start가 GPU 오토스케일링의 주요 장애 요인으로 작용함.

Technical Solution

Karpenter를 통한 Spot-first 프로비저닝으로 GPU 노드 비용 최적화 및 유연한 인스턴스 확보
KEDA와 Knative를 결합한 Pod 레벨 스케일링으로 트래픽 기반 Scale-to-Zero 구현
Dragonfly P2P 이미지 배포 시스템을 도입하여 ECR 병목을 제거하고 이미지 풀링 속도 개선
시스템 Pod 전용 Node Group을 분리하여 GPU 버스트 용량에 대한 의존성을 제거한 안정적 제어 평면 구축
NVIDIA Device Plugin 및 GFD를 활용한 예측 가능한 GPU 스케줄링 최적화
Terraform과 ArgoCD 기반의 GitOps 파이프라인으로 전체 인프라의 재현성 및 관리 효율성 확보

실천 포인트

- GPU 노드 비용 최적화를 위해 Spot Instance 우선 할당 및 On-demand Fallback 전략 검토 - 대용량 모델 이미지로 인한 Cold Start 지연 시 P2P 캐싱 솔루션(Dragonfly 등) 도입 고려 - 제어 평면(Control Plane) Pod와 워크로드 Pod의 노드 그룹을 물리적으로 분리하여 가용성 확보 - KEDA의 cooldownPeriod 설정을 통해 잦은 Scale-in/out으로 인한 불안정성 제어

태그

#KEDA #Scale-to-Zero #GPU Inference #Karpenter #Dragonfly

원문 읽기