유휴 Inference GPU Pool을 이용한 GPU Job 스케줄링

vLLM 지표 기반 유휴 GPU 재활용으로 3개월간 1.85억 원 비용 절감

ragingwind2026년 5월 27일3분intermediate

AI 요약

Context

LLM 서비스 특성상 트래픽 피크치 기준의 GPU 확보로 인해 야간 시간대 대규모 유휴 자원 발생. CPU/Memory 기반의 전통적 지표로는 토큰 길이에 따른 LLM의 가변적 부하 측정이 불가능한 아키텍처적 한계 존재.

Technical Solution

vLLM 내부의 실시간 Throughput 및 Queue 대기 상태 지표를 활용한 정밀 Auto Scaling 구현
서비스 안정성 확보를 위해 연구 작업을 Best-effort 방식으로 설계하여 트래픽 증가 시 즉각적인 자원 회수 구조 채택
Argo Workflows 기반의 Docker 이미지 단위 작업 정의를 통한 프레임워크 독립적 범용 실행 환경 구축
외부 파라미터 주입 및 Cloud Storage 기반 입출력 관리로 Stateless 구조의 재현성 확보
데이터 전처리부터 강화학습까지의 단계를 Step으로 분리하여 순차 및 병렬 실행 파이프라인 설계

실천 포인트

- 단순 시스템 지표 대신 애플리케이션 내부 런타임 지표(Custom Metrics)를 Scaling 기준으로 검토 - 서비스 영향도를 최소화하기 위한 Preemptible/Best-effort 작업 큐 설계 적용 - 작업 정의와 실행 환경을 Docker 이미지로 추상화하여 파이프라인의 범용성 확보

태그

#GPU-Scheduling #Argo Workflows #Auto-scaling #vLLM #Infrastructure Efficiency

원문 읽기