Hugging Face가 HUGS(Generative AI Services)를 출시해 오픈 모델의 추론 배포 시간을 주 단위에서 분 단위로 단축

Introducing HUGS - Scale your AI with Open Models

2024년 10월 23일8분intermediate

AI 요약

Context

개발자와 조직들은 LLM 추론 워크로드를 특정 GPU나 AI 가속기에 최적화하는 공학적 복잡성에 직면해 있었다. HUGS 사용 전에는 로컬 모델 배포에 약 1주일이 소요되었으며, 라이브러리·버전·파라미터 설정으로 인한 호환성 문제가 발생했다.

Technical Solution

Zero-configuration 추론 마이크로서비스 제공: Text Generation Inference와 Transformers 기반으로 설정 없이 최적 처리량 달성
OpenAI 호환 API 구현: 기존 OpenAI API 기반 애플리케이션을 코드 변경 최소화로 HUGS로 전환 가능
다중 하드웨어 가속기 지원: NVIDIA GPU, AMD GPU, AWS Inferentia(예정), Google TPU(예정)에서 실행
Kubernetes 기반 엔터프라이즈 배포: 자체 인프라 내 모델 호스팅으로 데이터와 모델을 인터넷 외부 유지
13개 인기 오픈 LLM 사전 최적화 설정 제공: Gemma 2, Llama 등 주요 모델에 대한 사전 테스트된 배포 구성 제공

Impact

배포 시간 단축: 이전 약 1주일에서 1시간 이내로 감소(Polyconseil CTO 언급). AWS 마켓플레이스에서 $1/시간/컨테이너 가격(계산 비용 별도). DigitalOcean에서는 추가 비용 없음(GPU 드롭렛 비용만 적용).

Key Takeaway

Zero-configuration 최적화는 복잡한 추론 배포를 접근성 높은 선택지로 전환할 수 있으며, OpenAI 호환 API를 통한 드롭인 교체 방식은 폐쇄 모델에서 오픈 모델로의 마이그레이션 장벽을 크게 낮춘다.

실천 포인트

폐쇄형 LLM API(예: OpenAI)에 종속된 생산 애플리케이션을 운영하는 팀에서 HUGS의 OpenAI 호환 API를 사용하면 추론 엔드포인트 URL만 변경하는 것으로 오픈 모델 기반 자체 호스팅 인프라로 전환할 수 있으며, 배포 시간을 주 단위에서 시간 단위로 단축할 수 있다.

태그

#GPU-Optimization #Open Models #LLM-Inference #Kubernetes #Hugging Face

원문 읽기