피드로 돌아가기
Hugging Face BlogBackend
원문 읽기
Google Cloud와 Hugging Face가 Deploy on Google Cloud 통합으로 수천 개의 오픈소스 LLM을 Vertex AI와 GKE에 원클릭으로 배포 가능하게 구현
Making thousands of open LLMs bloom in the Vertex AI Model Garden
AI 요약
Context
개발자와 조직들이 모델을 안전하고 안정적으로 배포하는 데 필요한 시간과 자원이 많이 소요되는 문제가 있었다. 오픈소스 모델들을 프로덕션 환경에 배포하기 위해 인프라 관리 및 서버 구성에 많은 비용이 필요했다.
Technical Solution
- Hugging Face Hub에 Deploy on Google Cloud 통합 추가: Hugging Face 모델 카드에서 직접 Google Cloud로 배포 가능하도록 구현
- Vertex Model Garden에 Hugging Face 검색 및 배포 기능 신규 추가: "Deploy From Hugging Face" 옵션으로 Google Cloud Console 내에서 직접 모델 검색 및 배포
- Text Generation Inference를 프로덕션 솔루션으로 활용: 인기 있는 오픈 모델들의 추론 작업을 지원
- Vertex AI와 GKE 두 가지 배포 환경 제공: 원클릭 배포(Vertex AI) 또는 Kubernetes 클러스터 기반 배포(GKE) 선택 가능
- 사전 테스트된 하드웨어 구성 제공: 수백 개의 인기 오픈 LLM에 대한 미리 설정된 하드웨어 구성 제시
Key Takeaway
플랫폼 간 통합을 통해 모델 배포의 진입 장벽을 단순화하면, 개발자가 인프라 관리 없이 프로덕션 환경에 빠르게 접근할 수 있다. 사전 구성된 템플릿과 원클릭 배포는 배포 복잡도를 크게 감소시키는 설계 원칙이다.
실천 포인트
오픈소스 LLM을 활용하는 개발 팀에서 Google Cloud 환경으로 배포할 때, Deploy on Google Cloud 통합과 미리 테스트된 하드웨어 구성을 사용하면 배포 시간을 클릭 수 회에서 몇 번으로 단축할 수 있다.