KEDA 기반 Scale-to-Zero 설계로 GPU 비용 65% 절감

I Stopped Paying for Idle GPUs - Scale-to-Zero AI Inference on OKE with KEDA

Pavan Madduri2026년 6월 17일5분intermediate

AI 요약

Context

내부 도구 및 스테이징 환경의 낮은 요청 빈도로 인한 GPU 자원 95% 유휴 상태 발생. A10 GPU 인스턴스 상시 가동으로 인해 월 $3,282의 과도한 비용 지출 구조를 개선할 필요성 대두.

Prometheus 기반 Request Rate를 모니터링하여 GPU Pod를 0으로 자동 확장하는 KEDA ScaledObject 적용
GPU Pod 특유의 느린 Cold Start(60~120s) 대응을 위해 Exponential Backoff 기반의 Go-lang Queue Proxy 구축
OKE Node Provisioning 시간(3~5분)을 단축하기 위해 최소 1대의 Warm Node를 상시 유지하는 하이브리드 스케일링 전략 채택
Flapping 현상 방지를 위해 300초의 Cooldown Period를 설정하여 불필요한 Pod 생성 및 제거 반복 억제
Model Loading 및 Node Provisioning의 병목 지점을 분리하여 사용자 대기 시간을 5분에서 90초 수준으로 최적화

실천 포인트

1. GPU Pod Cold Start 시 Request 유실 방지를 위한 Lightweight Proxy 도입 검토

2. Node Provisioning 지연 시간을 줄이기 위한 최소 Node 수(min node) 설정 최적화

3. KEDA ScaledObject의 activationThreshold 및 cooldownPeriod를 통한 확장 임계값 정밀 튜닝

4. GPU Utilization 60% 미만 환경에서만 Scale-to-Zero 전략 적용 고려

태그