Hugging Face가 PRO 구독자를 위해 curated 모델들의 API 엔드포인트와 향상된 rate limit을 제공하는 Inference for PROs 서비스 출시

Inference for PROs

2023년 9월 22일8분intermediate

AI 요약

Context

기존 무료 Inference API는 200,000개 이상의 모델을 지원하지만 프로토타이핑 용도로만 적합하며, 실제 프로덕션 애플리케이션이나 높은 처리량이 필요한 경우 사용자가 자체 인프라에 모델을 배포해야 하는 제약이 있었다.

Technical Solution

text-generation-inference 기반의 ultra-fast inference를 지원하는 curated 모델 엔드포인트 제공: Meta Llama 3 (8B, 70B), Mixtral 8x7B, Nous Hermes 2, Zephyr 7B, Code Llama (7B, 13B, 34B), Stable Diffusion XL, Bark 등 총 11개 모델
PRO 구독자에게 지정된 모델들에 대해 무료 접근 및 더 높은 rate limit 제공
HTTP POST 요청 기반 REST API 엔드포인트 제공: Bearer 토큰 인증 방식으로 모델별 /api-inference.huggingface.co/models/{model_name} 엔드포인트에 JSON 요청 전송
InferenceClient (Python 라이브러리)와 huggingface.js (JavaScript)를 통한 다언어 SDK 지원: temperature, max_new_tokens 등 generation parameters 제어 가능
스트리밍 응답 지원: stream=True 파라미터로 토큰 단위 점진적 생성 및 응답으로 end-user 지연시간 단축
사전 학습된 chat 템플릿 제공: Llama 2와 Code Llama 34B 모델용 chat format 지정

Key Takeaway

Hugging Face의 접근 방식은 개발자가 모델을 직접 배포하지 않고도 최신 SOTA 모델들을 즉시 실험할 수 있는 서비스형 인퍼런스 제공으로, 프로토타이핑과 프로덕션 간 명확한 구분(Inference for PROs vs Inference Endpoints)을 통해 사용자가 자신의 워크로드 특성에 맞는 옵션을 선택하도록 설계했다.

실천 포인트

LLM API를 개발하려는 팀에서 text-generation-inference를 기반으로 curated 모델 집합을 선정하고 Bearer 토큰 인증과 HTTP 엔드포인트로 구성하면, 사용자가 자체 인프라 관리 없이도 프로토타이핑 단계에서 여러 모델을 빠르게 비교 평가할 수 있고, 스트리밍 응답 지원으로 UI/UX 경험을 개선할 수 있다.

태그

#Text Generation Inference #REST API #Inference API #LLM #Hugging Face

원문 읽기