피드로 돌아가기
GeekNewsInfrastructure
원문 읽기
유휴 Inference GPU Pool을 이용한 GPU Job 스케줄링
vLLM 지표 기반 유휴 GPU 재활용으로 3개월간 1.85억 원 비용 절감
AI 요약
Context
트래픽 피크치 기준 GPU 확보로 인해 야간 시간대 대규모 유휴 자원이 발생하는 비효율 구조. LLM 특성상 토큰 길이에 따른 가변적 부하로 인해 CPU/Memory 등 전통적 지표 기반의 Auto Scaling 적용에 한계 직면.
Technical Solution
- vLLM 내부 처리량 및 Queue 대기 상태 지표를 활용한 LLM 특화 자원 모니터링 체계 구축
- 서비스 안정성 보장을 위해 연구 작업을 Best-effort 방식으로 실행하여 트래픽 증가 시 즉시 회수하는 우선순위 설계
- Argo Workflows 기반 파이프라인을 통한 Docker 이미지 단위 작업 정의 및 단계별 순차/병렬 실행 구조 구현
- 외부 파라미터 주입 및 Cloud Storage 기반 입출력 관리를 통한 Stateless 구조 및 재현성 확보
- Kubernetes 환경 내 서비스 인스턴스 복제본과 연구 작업 간의 동적 자원 할당 로직 적용
실천 포인트
- 전통적 시스템 지표 대신 애플리케이션 내부 런타임 지표(Runtime Metrics)를 Scaling 기준으로 검토 - 고비용 자원 활용 극대화를 위해 서비스 우선순위에 따른 Preemptible/Best-effort 작업 워크로드 분리 설계 - 인프라 의존성 제거를 위한 Docker 기반 패키징 및 Stateless 파이프라인 구축 여부 확인