Intel과 Hugging Face가 Optimum Intel 라이브러리를 통해 DistilBERT 모델을 양자화해 평가 속도를 1.34배 향상

Intel and Hugging Face Partner to Democratize Machine Learning Hardware Acceleration

2022년 6월 15일8분intermediate

AI 요약

Context

Transformer 모델이 점점 커지고 복잡해지면서 검색이나 챗봇 같은 지연 시간에 민감한 애플리케이션에서 배포 시 성능 문제가 발생하고 있다. 머신러닝 실무자들은 프레임워크와 하드웨어 플랫폼의 깊은 지식이 있어도 최적화된 성능을 달성하기 위해 많은 시행착오가 필요했다.

Technical Solution

Optimum 오픈소스 라이브러리 도입: Hugging Face가 Intel Neural Compressor(INC) 위에 구축한 라이브러리로 Transformer 가속화를 위한 통합 인터페이스 제공
Intel Xeon Ice Lake CPU에서 DistilBERT 모델 최적화: 단일 자릿수 밀리초 레이턴시 달성을 위한 상세 튜닝 가이드 및 벤치마크 발행
Habana Gaudi 가속기 지원: GPU 대비 40% 더 나은 가격 대비 성능으로 학습 워크로드 지원
양자화 기술 적용: 32비트 부동소수점 파라미터를 8비트 정수로 변환하여 메모리와 계산 요구사항 감소
자동 정확도 기반 튜닝 전략: INC의 자동화된 튜닝으로 최적의 양자화 모델을 신속하게 구축

Impact

DistilBERT 모델 양자화 후 평가 단계 속도: 13.15초에서 9.77초로 1.34배 향상
Habana Gaudi 가속기: GPU 대비 40% 더 나은 가격 대비 성능

Key Takeaway

Transformer 모델 최적화를 위해 Intel과 같은 하드웨어 제공자와의 협력을 통해 오픈소스 라이브러리화하면, 대규모 딥러닝 모델을 최소한의 코드 변경으로 특정 플랫폼에 맞게 가속화할 수 있다. 양자화, 가지치기 같은 압축 기술을 자동화하면 ML 실무자의 최적화 진입 장벽을 크게 낮출 수 있다.

실천 포인트

Transformer 기반 모델을 배포하는 엔지니어링 팀에서 Optimum Intel을 사용하면, 대규모 모델을 Intel Xeon CPU 환경에 최소한의 코드 변경만으로 양자화하여 추론 속도를 30% 이상 향상시킬 수 있다. 특히 Post-training Quantization을 지원하므로 이미 학습된 모델에 바로 적용 가능하다.

태그

#Transformer #Intel Xeon #Quantization #Hardware Acceleration #Optimum

원문 읽기