피드로 돌아가기
Deploying vLLM on OKE with NVIDIA A10 GPUs: The 20-Minute Setup Nobody Talks About
Dev.toDev.to
Infrastructure

OCI A10 GPU 기반 vLLM 구축으로 인퍼런스 비용 50% 절감

Deploying vLLM on OKE with NVIDIA A10 GPUs: The 20-Minute Setup Nobody Talks About

Pavan Madduri2026년 6월 16일6intermediate

Context

Llama 3 인퍼런스 엔드포인트 구축 과정에서 AWS, Azure 등 주요 클라우드의 높은 GPU 비용이 병목으로 작용함. OpenAI 호환 API 구현과 Auto-scaling 지원이라는 제약 사항 하에 비용 효율적인 GPU 인프라 확보가 필요했던 상황임.

Technical Solution

  • VM.GPU.A10.1 셰이프 채택을 통한 VRAM 24GB 확보 및 비용 최적화
  • OKE GPU 전용 이미지 사용으로 NVIDIA Driver 및 Container Toolkit 설치 과정 생략
  • NVIDIA Device Plugin DaemonSet 배포를 통한 GPU 자원의 Kubernetes 스케줄링 가능 상태 구현
  • vLLM Docker 이미지 기반의 OpenAI 호환 서버 구축으로 의존성 충돌 방지 및 배포 단순화
  • gpu-memory-utilization 설정을 0.90으로 지정하여 KV Cache 오버헤드에 따른 OOM 방지
  • 모델 로딩 시간을 고려한 Readiness Probe의 initialDelaySeconds 120초 설정을 통한 Pod 재시작 루프 차단

- Llama 3 8B 모델 기준 VM.GPU.A

1

0.1 셰이프로 충분한 VRAM 확보 여부 검토 - vLLM 도입 시 GPU 메모리 점유율을 90% 수준으로 제한하여 트래픽 급증 시 OOM 방지 - 모델 로딩 지연을 고려하여 Readiness Probe의 대기 시간을 충분히 설정 - 개발 및 스테이징 환경에서는 Preemptible GPU 풀을 통한 비용 최적화 적용

원문 읽기