피드로 돌아가기
Introducing Training Cluster as a Service - a new collaboration with NVIDIA
Hugging Face BlogHugging Face Blog
Infrastructure

Hugging Face와 NVIDIA가 Training Cluster as a Service를 출시해 250,000개 조직이 필요한 시점에 GPU 클러스터 용량을 온디맨드로 확보 가능

Introducing Training Cluster as a Service - a new collaboration with NVIDIA

2025년 6월 11일6intermediate

Context

Gigawatt급 GPU 슈퍼클러스터 프로젝트 구축으로 인해 GPU 보유 조직과 미보유 조직 간 컴퓨팅 격차가 확대되고 있다. 대학, 국립연구소, 스타트업 등 전 세계 연구 조직이 파운데이셔널 모델을 학습하기 위한 대규모 GPU 클러스터에 접근하기 어렵다.

Technical Solution

  • NVIDIA Cloud Partners와 협력하여 NVIDIA Hopper, NVIDIA GB200 등 최신 가속 컴퓨팅 칩을 지역 데이터센터에 제공
  • NVIDIA DGX Cloud Lepton을 신규 발표하여 인프라 프로비저닝, 학습 실행 스케줄링, 모니터링 기능 제공
  • Hugging Face 개발자 리소스와 오픈소스 라이브러리를 통합하여 학습 실행 시작 용이화
  • 조직이 hf.co/training-cluster에서 필요한 GPU 클러스터 크기, 지역, 기간을 요청하면 Hugging Face와 NVIDIA가 협력하여 소싱, 가격 책정, 프로비저닝, 설정 수행
  • 학습 실행 기간만큼만 비용을 지불하는 온디맨드 가격 모델 도입

Key Takeaway

대규모 컴퓨팅 자원을 필요로 하는 연구 조직들이 장기적 인프라 투자 없이 필요한 시점에 고성능 GPU 클러스터에 접근할 수 있도록 함으로써 AI 연구의 민주화를 추진하는 사례다.


GPU 클러스터 접근성이 제한된 연구팀이나 스타트업에서는 Training Cluster as a Service를 통해 초기 인프라 투자 없이 NVIDIA Hopper, GB200 같은 최신 가속 칩으로 파운데이셔널 모델 학습을 수행할 수 있으며, 사용 기간만큼만 비용을 지불함으로써 연구 예산을 효율적으로 할당할 수 있다.

원문 읽기