Hugging Face Infinity가 Intel Ice Lake CPU 기반 최적화로 Vanilla Transformers 대비 처리량 800% 향상 및 1-4ms 레이턴시 달성

Case Study: Millisecond Latency using Hugging Face Infinity and modern CPUs

2022년 1월 13일9분intermediate

AI 요약

Context

Transformer 모델은 자연어 처리 및 컴퓨터 비전에서 높은 정확도를 제공하지만, 프로덕션 환경에서 대규모 배포 시 예측 레이턴시로 인해 인프라 비용이 증가하고 실시간 사용 사례 구현이 어려운 상황이었습니다.

Technical Solution

Infinity Container를 Intel Ice Lake Xeon Scalable 프로세서(C6i 인스턴스)에 최적화: AVX-512, Turbo Boost, Deep Learning Boost 명령어 세트 활용
Infinity Multiverse를 통해 DistilBERT 모델을 타겟 하드웨어에 맞게 사전 최적화
End-to-End 파이프라인 측정: 전처리 → 예측 → 후처리 전체 단계 포함한 성능 지표 수집
HTTP /predict 엔드포인트 기반 REST API 제공으로 배포 단순화
배치 크기, 물리 CPU 코어, 시퀀스 길이에 따른 192개 실험 구성으로 최적 구성 제시

Impact

처리량: 시퀀스 길이 8 토큰에서 Infinity 248 req/sec vs Vanilla 49 req/sec (+506%)
처리량: 시퀀스 길이 512 토큰에서 Infinity 12 req/sec vs Vanilla 4 req/sec (+300%)
레이턴시: 배치 크기 1, 물리 CPU 코어 2에서 1-4ms 달성
Ice Lake 기반 인스턴스는 Cascade Lake 기반 인스턴스 대비 34% 레이턴시 및 처리량 향상
전체 성능: Vanilla Transformers 대비 최대 800% 처리량 개선

Key Takeaway

프로덕션 환경의 Transformer 모델 배포 시 하드웨어 특정 명령어 세트(AVX-512 등)를 활용한 저수준 최적화와 전체 추론 파이프라인을 함께 고려한 벤치마킹이 실시간 사용 사례를 가능하게 하는 핵심 전략입니다.

실천 포인트

Transformer 모델을 CPU 기반 프로덕션 환경에 배포하는 엔지니어는 Intel Ice Lake Xeon 같은 최신 세대 CPU의 SIMD 확장 명령어 세트를 활용하여 모델을 사전 최적화하고, 배치 크기와 시퀀스 길이에 따른 레이턴시-처리량 트레이드오프를 실험을 통해 검증하면 기존 대비 3~8배 성능 향상을 기대할 수 있습니다.

태그

#transformer-optimization #CPU Inference #Latency Optimization #Model Deployment #Hugging Face

원문 읽기