피드로 돌아가기
Bringing serverless GPU inference to Hugging Face users
Hugging Face BlogHugging Face Blog
Backend

Hugging Face와 Cloudflare가 Deploy on Cloudflare Workers AI 통합으로 GPU 인프라 관리 없이 서버리스 모델 배포 제공, 일일 1000 요청 기준 약 $1의 비용으로 LLM 추론 운영

Bringing serverless GPU inference to Hugging Face users

2024년 4월 2일6beginner

Context

개발자와 조직들은 GPU 가용성 부족과 서버 배포를 위한 고정 비용의 문제를 직면하고 있었다. 기존의 Generative AI 모델 배포 방식은 GPU 인프라 관리와 서버 운영이라는 높은 초기 진입장벽을 요구했다.

Technical Solution

  • Deploy on Cloudflare Workers AI 기능 추가: Hugging Face Hub의 모델 페이지에 "Deploy" 메뉴를 통해 Cloudflare Workers AI 옵션 제공
  • 서버리스 GPU 인프라 활용: Cloudflare 엣지 데이터센터에 배포된 GPU를 통한 모델 호스팅
  • 사용량 기반 가격 모델 도입: 유휴 용량이 아닌 실제 사용한 컴퓨팅에 대해서만 비용 청구
  • 두 가지 통합 방식 제공: Workers AI REST API 또는 Cloudflare AI SDK를 통한 직접 Workers 사용
  • Text Generation Inference를 기반한 프로덕션 솔루션: 인기 있는 오픈 모델(Llama, Gemma, Mistral 등)을 통합

Impact

Meta Llama 2 7B를 사용하는 RAG 애플리케이션에서 일일 1000 요청(입력 1k 토큰, 출력 100 토큰 기준) 시 추론 비용이 약 $1/일로 산출됨.

Key Takeaway

서버리스 GPU 인프라와 사용량 기반 가격 모델을 결합하면 개발자가 GPU 인프라 관리 부담 없이 낮은 운영 비용으로 Generative AI 애플리케이션을 구축할 수 있다. Hugging Face의 모델 생태계와 Cloudflare의 글로벌 엣지 네트워크를 통합하는 것이 진입장벽 제거의 핵심 전략이다.


RAG 애플리케이션이나 텍스트 생성 API를 개발하는 팀에서 Deploy on Cloudflare Workers AI를 통해 Llama, Gemma, Mistral 등 오픈 모델을 배포하면, GPU 서버 구매 및 운영 비용을 제거하고 요청당 비용만 부담할 수 있다. API 호출 시 ACCOUNT_ID와 API_TOKEN 설정으로 즉시 모델 추론을 시작할 수 있다.

원문 읽기