Hugging Face Hub가 Hyperbolic, Nebius AI Studio, Novita 3개 serverless inference provider를 추가로 지원함으로써 모델 페이지에서 직접 DeepSeek-R1, Flux.1 등 다양한 모델 접근 가능

Introducing Three New Serverless Inference Providers: Hyperbolic, Nebius AI Studio, and Novita 🔥

2025년 2월 18일7분intermediate

AI 요약

Context

Hugging Face Hub는 기존에 Together AI, Sambanova, Replicate, fal, Fireworks.ai 5개의 serverless inference provider만 지원하고 있었으며, 사용 가능한 모델과 공급자 선택지가 제한적이었다.

Technical Solution

3개 신규 serverless inference provider 통합: Hyperbolic, Nebius AI Studio, Novita를 Hub 모델 페이지에 직접 연동
이중 인증 방식 구현: 사용자 자신의 API 키를 사용한 직접 호출(Custom key) 또는 Hugging Face 계정을 통한 라우팅(Routed by HF) 선택 가능
사용자 설정에서 provider 순서 지정 기능 제공: 모델 페이지 위젯과 코드 스니펫에서 선호하는 provider 순서대로 표시
Python huggingface_hub SDK에서 InferenceClient의 provider 파라미터로 provider명 지정: InferenceClient(provider="hyperbolic", api_key="...")
JavaScript @huggingface/inference SDK에서 chatCompletion 호출 시 provider 파라미터 추가: await client.chatCompletion({model: "...", provider: "novita", ...})
청구 모델 이원화: Custom key 사용 시 해당 provider 계정으로 청구, Routed by HF 방식 시 Hugging Face 계정으로 청구

Impact

PRO 사용자는 매월 $2 상당의 Inference credits 제공받음.

Key Takeaway

Serverless inference provider를 추상화 계층으로 통합하면 사용자가 동일한 SDK 코드 구조 속에서 provider명만 변경하여 유연하게 서비스를 전환할 수 있으며, 청구 방식 선택지를 제공함으로써 비용 최적화와 의존성 제어를 동시에 달성할 수 있다.

실천 포인트

LLM API를 통합하는 애플리케이션에서 provider를 파라미터화된 클라이언트 추상화로 감싸면, InferenceClient(provider=변수명)처럼 단 한 곳의 설정 변경만으로 여러 서드파티 inference provider를 전환할 수 있어 공급자 종속성을 줄이고 모델 가용성을 높일 수 있다.

태그

#SDK Integration #Serverless Inference #LLM APIs #Hugging Face

원문 읽기