피드로 돌아가기
Hugging Face BlogBackend
원문 읽기
Hugging Face가 HUGS(Generative AI Services)를 출시해 오픈 모델의 추론 배포 시간을 주 단위에서 분 단위로 단축
Introducing HUGS - Scale your AI with Open Models
AI 요약
Context
개발자와 조직들은 LLM 추론 워크로드를 특정 GPU나 AI 가속기에 최적화하는 공학적 복잡성에 직면해 있었다. HUGS 사용 전에는 로컬 모델 배포에 약 1주일이 소요되었으며, 라이브러리·버전·파라미터 설정으로 인한 호환성 문제가 발생했다.
Technical Solution
- Zero-configuration 추론 마이크로서비스 제공: Text Generation Inference와 Transformers 기반으로 설정 없이 최적 처리량 달성
- OpenAI 호환 API 구현: 기존 OpenAI API 기반 애플리케이션을 코드 변경 최소화로 HUGS로 전환 가능
- 다중 하드웨어 가속기 지원: NVIDIA GPU, AMD GPU, AWS Inferentia(예정), Google TPU(예정)에서 실행
- Kubernetes 기반 엔터프라이즈 배포: 자체 인프라 내 모델 호스팅으로 데이터와 모델을 인터넷 외부 유지
- 13개 인기 오픈 LLM 사전 최적화 설정 제공: Gemma 2, Llama 등 주요 모델에 대한 사전 테스트된 배포 구성 제공
Impact
배포 시간 단축: 이전 약 1주일에서 1시간 이내로 감소(Polyconseil CTO 언급). AWS 마켓플레이스에서 $1/시간/컨테이너 가격(계산 비용 별도). DigitalOcean에서는 추가 비용 없음(GPU 드롭렛 비용만 적용).
Key Takeaway
Zero-configuration 최적화는 복잡한 추론 배포를 접근성 높은 선택지로 전환할 수 있으며, OpenAI 호환 API를 통한 드롭인 교체 방식은 폐쇄 모델에서 오픈 모델로의 마이그레이션 장벽을 크게 낮춘다.
실천 포인트
폐쇄형 LLM API(예: OpenAI)에 종속된 생산 애플리케이션을 운영하는 팀에서 HUGS의 OpenAI 호환 API를 사용하면 추론 엔드포인트 URL만 변경하는 것으로 오픈 모델 기반 자체 호스팅 인프라로 전환할 수 있으며, 배포 시간을 주 단위에서 시간 단위로 단축할 수 있다.