피드로 돌아가기
Hugging Face BlogInfrastructure
원문 읽기
Hugging Face와 NVIDIA가 Training Cluster as a Service를 출시해 250,000개 조직이 필요한 시점에 GPU 클러스터 용량을 온디맨드로 확보 가능
Introducing Training Cluster as a Service - a new collaboration with NVIDIA
AI 요약
Context
Gigawatt급 GPU 슈퍼클러스터 프로젝트 구축으로 인해 GPU 보유 조직과 미보유 조직 간 컴퓨팅 격차가 확대되고 있다. 대학, 국립연구소, 스타트업 등 전 세계 연구 조직이 파운데이셔널 모델을 학습하기 위한 대규모 GPU 클러스터에 접근하기 어렵다.
Technical Solution
- NVIDIA Cloud Partners와 협력하여 NVIDIA Hopper, NVIDIA GB200 등 최신 가속 컴퓨팅 칩을 지역 데이터센터에 제공
- NVIDIA DGX Cloud Lepton을 신규 발표하여 인프라 프로비저닝, 학습 실행 스케줄링, 모니터링 기능 제공
- Hugging Face 개발자 리소스와 오픈소스 라이브러리를 통합하여 학습 실행 시작 용이화
- 조직이 hf.co/training-cluster에서 필요한 GPU 클러스터 크기, 지역, 기간을 요청하면 Hugging Face와 NVIDIA가 협력하여 소싱, 가격 책정, 프로비저닝, 설정 수행
- 학습 실행 기간만큼만 비용을 지불하는 온디맨드 가격 모델 도입
Key Takeaway
대규모 컴퓨팅 자원을 필요로 하는 연구 조직들이 장기적 인프라 투자 없이 필요한 시점에 고성능 GPU 클러스터에 접근할 수 있도록 함으로써 AI 연구의 민주화를 추진하는 사례다.
실천 포인트
GPU 클러스터 접근성이 제한된 연구팀이나 스타트업에서는 Training Cluster as a Service를 통해 초기 인프라 투자 없이 NVIDIA Hopper, GB200 같은 최신 가속 칩으로 파운데이셔널 모델 학습을 수행할 수 있으며, 사용 기간만큼만 비용을 지불함으로써 연구 예산을 효율적으로 할당할 수 있다.