피드로 돌아가기
Production-Ready GPU Inference Autoscaling on EKS with Karpenter, KEDA, and Dragonfly
Dev.toDev.to
Infrastructure

Karpenter와 Dragonfly 기반 GPU Scale-to-Zero로 Warm Start 7s 달성

Production-Ready GPU Inference Autoscaling on EKS with Karpenter, KEDA, and Dragonfly

Mark Johnson2026년 5월 17일32advanced

Context

GPU 인스턴스의 높은 비용과 트래픽 변동성으로 인해 상시 가동 시 비용 낭비가 심각한 상황. 특히 대용량 모델 이미지로 인한 ECR 대역폭 병목과 느린 Cold Start가 GPU 오토스케일링의 주요 장애 요인으로 작용함.

Technical Solution

  • Karpenter를 통한 Spot-first 프로비저닝으로 GPU 노드 비용 최적화 및 유연한 인스턴스 확보
  • KEDA와 Knative를 결합한 Pod 레벨 스케일링으로 트래픽 기반 Scale-to-Zero 구현
  • Dragonfly P2P 이미지 배포 시스템을 도입하여 ECR 병목을 제거하고 이미지 풀링 속도 개선
  • 시스템 Pod 전용 Node Group을 분리하여 GPU 버스트 용량에 대한 의존성을 제거한 안정적 제어 평면 구축
  • NVIDIA Device Plugin 및 GFD를 활용한 예측 가능한 GPU 스케줄링 최적화
  • Terraform과 ArgoCD 기반의 GitOps 파이프라인으로 전체 인프라의 재현성 및 관리 효율성 확보

- GPU 노드 비용 최적화를 위해 Spot Instance 우선 할당 및 On-demand Fallback 전략 검토 - 대용량 모델 이미지로 인한 Cold Start 지연 시 P2P 캐싱 솔루션(Dragonfly 등) 도입 고려 - 제어 평면(Control Plane) Pod와 워크로드 Pod의 노드 그룹을 물리적으로 분리하여 가용성 확보 - KEDA의 cooldownPeriod 설정을 통해 잦은 Scale-in/out으로 인한 불안정성 제어

원문 읽기