피드로 돌아가기
Deploy models on AWS Inferentia2 from Hugging Face
Hugging Face BlogHugging Face Blog
AI/ML

Hugging Face가 AWS Inferentia2 칩 지원을 SageMaker와 Inference Endpoints에 통합해 100,000개 이상의 모델 배포 가능

Deploy models on AWS Inferentia2 from Hugging Face

2024년 5월 22일7intermediate

Context

Hugging Face 커뮤니티는 AWS의 AI 가속 칩(Trainium, Inferentia)을 활용한 모델 배포 솔루션이 부족했다. 사용자들이 대규모 언어 모델을 프로덕션 환경에서 효율적으로 배포하려면 복잡한 최적화 과정과 직접 통합이 필요했다.

Technical Solution

  • optimum-neuron 오픈소스 라이브러리 개발: Hugging Face 모델을 AWS Trainium/Inferentia 가속기에서 학습 및 배포 가능하도록 지원
  • Amazon SageMaker 통합: 14개 새로운 모델 아키텍처(albert, bert, camembert, convbert, deberta, deberta-v2, distilbert, electra, roberta, mobilebert, mpnet, vit, xlm, xlm-roberta) 지원
  • 6개 머신러닝 작업 확장: text-classification, text-generation, token-classification, fill-mask, question-answering, feature-extraction 태스크 지원
  • Hugging Face Inference Endpoints에 Inf2 인스턴스 옵션 추가: Inf2-small(2 코어, 32GB, $0.75/시간) 및 Inf2-xlarge(24 코어, 384GB, $12/시간) 선택 가능
  • Text Generation Inference for Neuron(TGI) 기반 배포: OpenAI SDK Messages API 호환성 제공으로 기존 애플리케이션 수정 없음

Impact

  • 100,000개 이상의 공개 모델이 Inferentia2에서 배포 가능한 상태 달성
  • Llama 3 8B 모델을 $0.75/시간의 비용으로 배포 가능
  • Llama 3 70B 모델을 $12/시간의 비용으로 배포 가능
  • 초 단위 청구 시스템과 자동 스케일-투-제로 기능으로 미사용 시간 비용 제거

Key Takeaway

Hugging Face가 AWS 칩 공급업체와 1년 이상 협력해 optimum-neuron 라이브러리와 통합 배포 인터페이스를 구축함으로써, 사용자가 UI 클릭 몇 번으로 최적화된 하드웨어 가속 배포를 수행할 수 있는 추상화 계층을 제공했다. 이는 복잡한 최적화를 플랫폼 수준에서 해결하는 설계 원칙을 보여준다.


대규모 언어 모델을 프로덕션에서 운영하는 팀은 Hugging Face Inference Endpoints의 Inferentia2 옵션을 사용해 전통적 GPU 기반 배포 대비 비용 효율적인 추론 서비스를 구축할 수 있다. 특히 OpenAI SDK 호환성을 제공하므로 기존 애플리케이션 코드 변경 없이 엔드포인트 주소만 변경하면 비용 절감 효과를 얻을 수 있다.

원문 읽기