피드로 돌아가기
Hacker NewsHacker News
Infrastructure

GPU 자원 낭비 59% 해결을 위한 Multimodal 리소스 예측 엔진 설계

Launch HN: Expanse (YC P26) – Unlock Wasted GPU Capacity

2026년 6월 1일6advanced

Context

사용자가 작업 실패 리스크를 피하기 위해 필요 이상의 리소스를 요청하는 Asymmetric Risk로 인해 데이터센터의 실효 이용률이 30~40% 수준에 머무는 한계 발생. 기존의 Historical Average 기반 예측은 워크로드 변경 시 정확도가 급락하며, 일반 LLM은 하드웨어 텔레메트리와의 연동 부재로 정밀한 예측이 불가능한 구조임.

Technical Solution

  • SLURM 및 K8s 스케줄러 생명주기에 Hook을 연결하여 제출 단계에서 리소스 요구량을 사전 분석하는 인터셉터 구조 설계
  • 소스 코드, 제출 스크립트, 하드웨어 텔레메트리를 결합한 Multimodal Embedding 모델을 통해 워크로드의 계산 패턴 분석
  • DCGM, CUPTI, Cgroups 등 실시간 하드웨어 텔레메트리를 수집하여 클러스터 고유의 성능 특성을 반영한 모델 파인튜닝 수행
  • 작업 중단 리스크 최소화를 위해 Under-provisioning보다 Over-provisioning에 가중치를 둔 예측 모델 최적화
  • P90 수치 및 Confidence Interval 제공을 통해 사용자가 리스크 허용 범위에 따라 자원을 선택하는 유연한 메커니즘 도입
  • Low single digit overhead의 동적 프로파일링을 통해 런타임 텔레메트리와 스택 프로파일링 간의 상관관계를 분석하는 진단 로직 구현

1. 리소스 할당 시 단순 평균값이 아닌 P90 등 분위수 기반의 임계치 설정 검토

2. 하드웨어 텔레메트리(DCGM, CUPTI 등)를 수집하여 실제 리소스 사용률과 요청량의 Gap 분석

3. 인프라 예측 모델 설계 시 실패 비용의 비대칭성을 고려한 가중치 설계 적용

원문 읽기