피드로 돌아가기
From cloud to developers: Hugging Face and Microsoft Deepen Collaboration
Hugging Face BlogHugging Face Blog
Backend

Hugging Face와 Microsoft가 Azure Model Catalog에 Llama 3, Mistral 7B 등 주요 오픈 LLM 추가 및 AMD MI300X GPU 최적화로 1-click 배포 및 고성능 추론 환경 제공

From cloud to developers: Hugging Face and Microsoft Deepen Collaboration

2024년 5월 21일6intermediate

Context

오픈소스 AI 모델들이 증가하면서 클라우드 플랫폼에서의 배포와 최적화가 복잡해졌으며, 개발자들이 다양한 오픈 모델을 쉽게 접근하고 로컬에서 추론할 수 있는 방안이 필요했다.

Technical Solution

  • Azure Model Catalog의 Hugging Face Collection에 Llama 3, Mistral 7B, Command R Plus, Qwen 1.5 110B 등 인기 LLM 모델 추가: Hugging Face Hub 모델 카드에서 "Deploy on Azure" 옵션으로 직접 1-click 배포 가능
  • AMD Instinct MI300X GPU 기반 Azure ND MI300X 가상머신 일반 공개: Optimum-AMD 오픈소스 라이브러리와 ROCm 통합으로 Hugging Face 모델 최적화
  • ONNX Runtime과 Transformers.js를 활용한 WebGPU 기반 로컬 브라우저 추론: Phi-3 mini 모델로 초당 70 토큰 생성 달성
  • Hugging Face Spaces Dev Mode 베타 출시: VS Code와 Hugging Face Spaces 연동으로 로컬 또는 웹 호스팅 개발 환경 제공
  • Microsoft가 Phi-3 모델군(3.8B 파라미터, MIT 라이선스)을 Hugging Face Hub에 공개: Hugging Chat 무료 애플리케이션에 Phi-3 mini 통합

Impact

Azure AI 고객 수백 명이 Hugging Face Collection 활용 중이며 1,000개 이상의 오픈 모델 배포 가능하다. Phi-3 mini는 7B~10B 파라미터 모델들의 성능을 능가하면서 온디바이스 애플리케이션에 적합하다.

Key Takeaway

클라우드 제공자와 오픈소스 커뮤니티의 깊은 협력을 통해 모델 카탈로그, 하드웨어 최적화, 로컬 추론, 개발자 경험을 통합하면 엔터프라이즈에서 오픈 AI 모델 채택 장벽을 낮출 수 있다.


Azure 환경에서 오픈소스 LLM을 운영하는 팀이라면, Azure Model Catalog의 Hugging Face Collection을 통해 검증된 모델을 배포하고, AMD MI300X 또는 NVIDIA GPU와 Optimum 라이브러리를 조합해 추론 최적화를 진행하면 배포 시간을 단축하고 온디바이스 추론이 필요한 경우 WebGPU 기반 브라우저 추론으로 인프라 비용을 절감할 수 있다.

원문 읽기