Google과 Hugging Face가 TPU v5e를 Inference Endpoints와 Spaces에 통합하여 LLM 배포 시 GPU 대비 비용 효율적인 추론 인프라 제공

Google Cloud TPUs made available to Hugging Face users

2024년 7월 9일5분intermediate

AI 요약

Context

AI 모델 배포 시 GPU 기반 인프라는 높은 운영 비용이 발생한다. Hugging Face 사용자들이 비용 효율적인 대안 없이 GPU에 의존하고 있었다.

Technical Solution

Google Cloud TPU v5e를 Hugging Face Inference Endpoints에 통합: us-west1 리전에서 v5litepod-1/4/8 구성 지원
3가지 TPU 인스턴스 구성 제공: 1코어 16GB ($1.375/시간), 4코어 64GB ($5.50/시간), 8코어 128GB ($11.00/시간)
Optimum TPU 오픈소스 라이브러리 개발: Hugging Face 모델을 TPU에서 학습 및 배포하기 위한 최적화 도구 제공
Text Generation Inference(TGI)와 Optimum TPU를 조합하여 LLM을 TPU에서 서빙
Hugging Face Spaces에도 동일한 TPU v5e 구성 추가하여 데모 애플리케이션 배포 지원
초기 지원 모델: Gemma, Llama, Mistral (Optimum TPU 지원 모델)

Impact

TPU 구성에 따라 레이턴시 감소: 더 큰 구성일수록 낮은 레이턴시 달성

Key Takeaway

Hugging Face와 Google의 협력으로 커스텀 AI 하드웨어(TPU)를 소프트웨어 플랫폼(Inference Endpoints, Spaces)에 통합함으로써 개발자가 인프라 선택의 폭을 확대할 수 있게 되었다. 이는 클라우드 제공자의 전문 하드웨어와 AI 프레임워크 플랫폼의 긴밀한 협력이 사용자 경험을 크게 향상시킬 수 있음을 보여준다.

실천 포인트

LLM을 배포하는 엔지니어가 GPU 인스턴스 대신 TPU v5e를 Hugging Face Inference Endpoints에서 선택하면 비슷한 성능을 더 낮은 운영 비용(v5litepod-4: $

5.50/시간)으로 확보할 수 있다. Optimum TPU 라이브러리를 사용하면 기존 Hugging Face 모델 코드를 최소한의 변경으로 TPU 환경에 배포할 수 있다.

태그

#AI/ML Infrastructure #Inference Endpoints #Model Deployment #TPU #Hugging Face

원문 읽기