Hugging Face와 Intel이 SetFit 모델에 Optimum Intel의 Post-Training Quantization을 적용해 Intel Xeon CPU에서 7.8배 추론 속도 향상 달성

Blazing Fast SetFit Inference with 🤗 Optimum Intel on Xeon

2024년 4월 3일10분intermediate

AI 요약

Context

SetFit은 라벨 데이터 부족 환경에서 Sentence Transformers를 효율적으로 파인튜닝하는 프레임워크이나, Intel CPU 기반 인프라에서 추론 성능이 제한적이었다. 프로덕션 환경의 SetFit 배포 시 처리량(throughput) 확대가 주요 과제였다.

Technical Solution

Post-Training Quantization (PTQ) 적용: Intel Neural Compressor를 사용해 SetFit 모델의 가중치를 FP32에서 INT8로 변환하여 메모리 푋트프린트 감소
Intel CPU 하드웨어 가속 활용: Intel AVX-512, VNNI, Intel AMX 명령어 세트를 통해 정수 연산 가속화 (BFloat16 및 INT8 GEMM 가속기 활용)
무레이블 캘리브레이션 세트 활용: 100개의 언레이블 샘플로 PTQ 수행하여 정확도 손실 없이 최적화 (추가 학습 불필요)
PyTorch 2.0 및 Intel Extension for PyTorch (IPEX) 통합: 최신 런타임 최적화 기법 적용으로 다양한 연산자 가속화
모델 크기 축소: 정량화 결과 모델 크기 2.85배 감소로 배포 비용 및 메모리 사용량 절감

Impact

최고 처리량(batch size 별 최대값 기준) 기준 7.8배 추론 속도 향상 달성
정확도 손실 없음(virtually no drop in accuracy 보고)
모델 크기 2.85배 축소

Key Takeaway

Post-Training Quantization은 기존 학습된 모델에 대한 재학습 비용 없이 CPU 하드웨어 명령어 세트를 활용한 추론 최적화를 가능하게 한다. SetFit 같은 경량 모델은 특히 INT8 정량화를 통해 정확도 유지하면서 대폭적인 성능 향상을 달성할 수 있다.

실천 포인트

Hugging Face SetFit을 Intel Xeon 기반 프로덕션 환경에 배포하는 팀에서는 Optimum Intel의 Post-Training Quantization을 적용하면, 100개 정도의 언레이블 샘플만으로 재학습 없이

7.8배의 처리량 향상을 얻을 수 있다.

태그

#Intel Xeon #Quantization #Optimum Intel #SetFit #Inference Optimization

원문 읽기