피드로 돌아가기
Hugging Face BlogAI/ML
원문 읽기
Google과 Hugging Face가 TPU v5e를 Inference Endpoints와 Spaces에 통합하여 LLM 배포 시 GPU 대비 비용 효율적인 추론 인프라 제공
Google Cloud TPUs made available to Hugging Face users
AI 요약
Context
AI 모델 배포 시 GPU 기반 인프라는 높은 운영 비용이 발생한다. Hugging Face 사용자들이 비용 효율적인 대안 없이 GPU에 의존하고 있었다.
Technical Solution
- Google Cloud TPU v5e를 Hugging Face Inference Endpoints에 통합: us-west1 리전에서 v5litepod-1/4/8 구성 지원
- 3가지 TPU 인스턴스 구성 제공: 1코어 16GB ($1.375/시간), 4코어 64GB ($5.50/시간), 8코어 128GB ($11.00/시간)
- Optimum TPU 오픈소스 라이브러리 개발: Hugging Face 모델을 TPU에서 학습 및 배포하기 위한 최적화 도구 제공
- Text Generation Inference(TGI)와 Optimum TPU를 조합하여 LLM을 TPU에서 서빙
- Hugging Face Spaces에도 동일한 TPU v5e 구성 추가하여 데모 애플리케이션 배포 지원
- 초기 지원 모델: Gemma, Llama, Mistral (Optimum TPU 지원 모델)
Impact
TPU 구성에 따라 레이턴시 감소: 더 큰 구성일수록 낮은 레이턴시 달성
Key Takeaway
Hugging Face와 Google의 협력으로 커스텀 AI 하드웨어(TPU)를 소프트웨어 플랫폼(Inference Endpoints, Spaces)에 통합함으로써 개발자가 인프라 선택의 폭을 확대할 수 있게 되었다. 이는 클라우드 제공자의 전문 하드웨어와 AI 프레임워크 플랫폼의 긴밀한 협력이 사용자 경험을 크게 향상시킬 수 있음을 보여준다.
실천 포인트
LLM을 배포하는 엔지니어가 GPU 인스턴스 대신 TPU v5e를 Hugging Face Inference Endpoints에서 선택하면 비슷한 성능을 더 낮은 운영 비용(v5litepod-4: $5.50/시간)으로 확보할 수 있다. Optimum TPU 라이브러리를 사용하면 기존 Hugging Face 모델 코드를 최소한의 변경으로 TPU 환경에 배포할 수 있다.