Hugging Face와 Intel이 Optimum Intel에 OpenVINO를 통합해 Vision Transformer 모델의 메모리 크기를 3.8배 감소(344MB→90MB)시키고 추론 레이턴시를 2.4배 단축(98ms→41ms)

Accelerate your models with 🤗 Optimum Intel and OpenVINO

2022년 11월 2일8분intermediate

AI 요약

Context

Transformer 모델은 프로덕션 환경에서 높은 메모리 요구사항과 추론 레이턴시로 인해 엣지 디바이스나 실시간 애플리케이션 배포가 제한되고 있다.

Technical Solution

OpenVINO 2.2 런타임을 Optimum Intel에 통합해 PyTorch 모델을 OpenVINO 형식(XML 토폴로지 + 바이너리 가중치 파일)으로 변환
OpenVINO Neural Network Compression Framework(NNCF)를 활용한 포스트트레이닝 정적 양자화(Post-training static quantization) 적용으로 모델 파라미터의 비트폭 감소
OVModelForImageClassification 등 OVModel 클래스를 통해 Transformers 라이브러리와 동일한 인터페이스로 양자화된 모델 로드 및 파이프라인 구성
양자화 과정에서 원본 데이터셋 300개 샘플을 기반으로 보정(calibration) 데이터셋 구성하여 정확도 손실 최소화
Intel CPU 등 다양한 Intel 프로세서에서 단일 컴파일된 모델 실행 가능

Impact

메모리 크기: 344MB → 90MB (3.8배 감소)
추론 레이턴시: 98ms → 41ms (2.4배 단축)
정확도 유지: 양자화 전후 87.6% 동일
양자화 소요 시간: 1~2분

Key Takeaway

Transformer 모델의 양자화는 정수 연산의 효율성을 활용해 수 분 내에 3배 이상의 메모리 절감과 2배 이상의 레이턴시 개선을 동시에 달성할 수 있으며, 프로덕션 배포 시 정확도 손실을 무시할 수준으로 제어 가능하다.

실천 포인트

Hugging Face에서 호스팅되는 Transformer 모델을 사용하는 엔지니어라면 OVQuantizer.quantize()를 통해 포스트트레이닝 양자화를 적용하고, 원본 데이터셋 기반 보정 과정을 거친 후 OVModel 클래스로 로드하면, 코드 변경 최소화(pipeline 인터페이스 동일 유지)로 엣지 디바이스 배포 또는 레이턴시 크리티컬한 서비스에서 2~4배의 성능 개선을 얻을 수 있다.

태그

#Model optimization #Quantization #Transformers #OpenVINO #Hugging Face

원문 읽기