GPU 자원 낭비 59% 해결을 위한 Multimodal 리소스 예측 엔진 설계

Launch HN: Expanse (YC P26) – Unlock Wasted GPU Capacity

2026년 6월 1일6분advanced

AI 요약

Context

사용자가 작업 실패 리스크를 피하기 위해 필요 이상의 리소스를 요청하는 Asymmetric Risk로 인해 데이터센터의 실효 이용률이 30~40% 수준에 머무는 한계 발생. 기존의 Historical Average 기반 예측은 워크로드 변경 시 정확도가 급락하며, 일반 LLM은 하드웨어 텔레메트리와의 연동 부재로 정밀한 예측이 불가능한 구조임.

Technical Solution

SLURM 및 K8s 스케줄러 생명주기에 Hook을 연결하여 제출 단계에서 리소스 요구량을 사전 분석하는 인터셉터 구조 설계
소스 코드, 제출 스크립트, 하드웨어 텔레메트리를 결합한 Multimodal Embedding 모델을 통해 워크로드의 계산 패턴 분석
DCGM, CUPTI, Cgroups 등 실시간 하드웨어 텔레메트리를 수집하여 클러스터 고유의 성능 특성을 반영한 모델 파인튜닝 수행
작업 중단 리스크 최소화를 위해 Under-provisioning보다 Over-provisioning에 가중치를 둔 예측 모델 최적화
P90 수치 및 Confidence Interval 제공을 통해 사용자가 리스크 허용 범위에 따라 자원을 선택하는 유연한 메커니즘 도입
Low single digit overhead의 동적 프로파일링을 통해 런타임 텔레메트리와 스택 프로파일링 간의 상관관계를 분석하는 진단 로직 구현

실천 포인트

1. 리소스 할당 시 단순 평균값이 아닌 P90 등 분위수 기반의 임계치 설정 검토

2. 하드웨어 텔레메트리(DCGM, CUPTI 등)를 수집하여 실제 리소스 사용률과 요청량의 Gap 분석

3. 인프라 예측 모델 설계 시 실패 비용의 비대칭성을 고려한 가중치 설계 적용

태그

#Multimodal Prediction #Slurm #HPC #GPU Utilization #Hardware Telemetry

원문 읽기