Microsoft가 ONNX Runtime으로 Hugging Face의 130,000개 이상 모델을 최적화해 Whisper-tiny 모델의 추론 레이턴시를 PyTorch 대비 74.30% 감소

Accelerating over 130,000 Hugging Face models with ONNX Runtime

2023년 10월 4일5분intermediate

AI 요약

Context

Hugging Face에는 130,000개 이상의 공개 머신러닝 모델이 존재하지만, 이들의 추론 성능 최적화는 표준화되지 않은 문제였다. 특히 LLM과 음성 인식 모델 등 인기 모델들의 추론 속도가 실시간 애플리케이션 요구사항을 충족하지 못했다.

Technical Solution

ONNX Runtime을 Hugging Face 플랫폼과 통합: 크로스 플랫폼 머신러닝 도구를 이용해 ONNX 지원 모델들의 추론 가속화
90개 이상의 Hugging Face 모델 아키텍처를 ONNX Runtime으로 지원: BERT, GPT2, DistilBERT, RoBERTa, T5, Wav2Vec2, Stable-Diffusion, XLM-RoBERTa, Whisper, BART, Marian 등 상위 11개 인기 아키텍처 포함
모델별 최적화 검증: 각 지원 아키텍처의 추론 성능을 실제 측정하고 PyTorch 기준선과 비교

Impact

Whisper-tiny 모델의 추론 레이턴시 74.30% 개선 (PyTorch 대비)

Key Takeaway

ONNX Runtime과 같은 표준화된 모델 최적화 도구를 에코시스템 파트너(Hugging Face)와 긴밀히 협력하여 지원하면, 대규모 다양한 모델들의 추론 성능을 체계적으로 향상시킬 수 있다. 이는 사용자가 별도의 최적화 작업 없이도 기본적으로 높은 성능을 얻을 수 있는 기반을 제공한다.

실천 포인트

Hugging Face에서 모델을 배포하는 엔지니어는 PyTorch 기반 추론 대신 ONNX Runtime으로 변환하면 특히 음성 인식(Whisper) 등의 모델에서 40~75% 정도의 레이턴시 단축을 기대할 수 있으며, 이미 90개 이상의 주요 모델 아키텍처가 공식 지원되므로 호환성 걱정 없이 도입 가능하다.

태그

#Model optimization #Inference #ONNX Runtime #machine learning #Hugging Face

원문 읽기