Hugging Face와 NVIDIA가 Training Cluster as a Service를 출시해 250,000개 조직이 필요한 시점에 GPU 클러스터 용량을 온디맨드로 확보 가능

Introducing Training Cluster as a Service - a new collaboration with NVIDIA

2025년 6월 11일6분intermediate

AI 요약

Context

Gigawatt급 GPU 슈퍼클러스터 프로젝트 구축으로 인해 GPU 보유 조직과 미보유 조직 간 컴퓨팅 격차가 확대되고 있다. 대학, 국립연구소, 스타트업 등 전 세계 연구 조직이 파운데이셔널 모델을 학습하기 위한 대규모 GPU 클러스터에 접근하기 어렵다.

Technical Solution

NVIDIA Cloud Partners와 협력하여 NVIDIA Hopper, NVIDIA GB200 등 최신 가속 컴퓨팅 칩을 지역 데이터센터에 제공
NVIDIA DGX Cloud Lepton을 신규 발표하여 인프라 프로비저닝, 학습 실행 스케줄링, 모니터링 기능 제공
Hugging Face 개발자 리소스와 오픈소스 라이브러리를 통합하여 학습 실행 시작 용이화
조직이 hf.co/training-cluster에서 필요한 GPU 클러스터 크기, 지역, 기간을 요청하면 Hugging Face와 NVIDIA가 협력하여 소싱, 가격 책정, 프로비저닝, 설정 수행
학습 실행 기간만큼만 비용을 지불하는 온디맨드 가격 모델 도입

Key Takeaway

대규모 컴퓨팅 자원을 필요로 하는 연구 조직들이 장기적 인프라 투자 없이 필요한 시점에 고성능 GPU 클러스터에 접근할 수 있도록 함으로써 AI 연구의 민주화를 추진하는 사례다.

실천 포인트

GPU 클러스터 접근성이 제한된 연구팀이나 스타트업에서는 Training Cluster as a Service를 통해 초기 인프라 투자 없이 NVIDIA Hopper, GB200 같은 최신 가속 칩으로 파운데이셔널 모델 학습을 수행할 수 있으며, 사용 기간만큼만 비용을 지불함으로써 연구 예산을 효율적으로 할당할 수 있다.

태그

#GPU #DGX Cloud #AI Training #Infrastructure #Cloud Computing

원문 읽기