Hugging Face가 FriendliAI의 추론 인프라를 Hub에 통합해 모델 배포 시 NVIDIA H100 GPU에서 1-클릭 배포 지원

Hugging Face and FriendliAI partner to supercharge model deployment on the Hub

2025년 1월 22일6분intermediate

AI 요약

Context

개발자들이 생성형 AI 모델을 배포할 때 인프라 관리의 복잡성으로 인해 배포 프로세스가 번거롭고, 비용 효율적인 추론 솔루션에 접근하기 어려웠다.

Technical Solution

FriendliAI Endpoints를 Hugging Face Hub의 "Deploy this model" 버튼에 옵션으로 통합: 모델 카드에서 직접 1-클릭 배포 가능
Friendli Dedicated Endpoints로 NVIDIA H100 GPU 배포 제공: 고성능 GPU 기반 관리형 추론 서비스
Friendli Serverless Endpoints 옵션 제공: FriendliAI가 최적화한 오픈소스 모델에 대한 API 기반 저비용 추론
FriendliAI의 GPU 최적화 추론 엔진 적용: continuous batching, native quantization, autoscaling 기술로 필요 GPU 수 감소
모델 배포 페이지에서 실시간 채팅 인터페이스 제공: 배포 처리 중 오픈소스 모델 직접 테스트 가능

Impact

GPU 필요 수를 감소시키면서 피크 성능 유지로 규모 배포 시 비용 대폭 절감 가능. (Artificial Analysis 기준 FriendliAI는 GPU 기반 생성형 AI 추론 제공자 중 가장 빠른 속도)

Key Takeaway

모델 호스팅 플랫폼이 전문화된 추론 인프라 제공자와 통합됨으로써 개발자가 인프라 관리 복잡성을 제거하고 배포에 집중할 수 있게 된다. 플랫폼 간 협력으로 사용자 경험을 크게 단순화할 수 있다는 설계 원칙을 보여준다.

실천 포인트

Hugging Face Hub에서 모델을 배포하는 개발자가 FriendliAI의 관리형 Endpoints를 선택하면 인프라 관리 오버헤드를 제거하고 NVIDIA H100에서 최적화된 추론을 바로 시작할 수 있으며, continuous batching과 quantization 기술로 인한 GPU 활용률 향상으로 배포 비용을 현저히 줄일 수 있다.

태그

#GPU Inference #FriendliAI #H100 #Model Deployment #Hugging Face

원문 읽기