피드로 돌아가기
Hugging Face BlogAI/ML
원문 읽기
Intel이 Optimum Intel과 OpenVINO를 활용해 SmolVLM을 Intel CPU에서 실행하며 PyTorch 대비 12배 TTFT 단축 및 65배 처리량 증대
Get your VLM running in 3 simple steps on Intel CPUs
AI 요약
Context
Vision Language Model(VLM)은 이미지와 비디오를 분석하는 계산 집약적 모델이지만, GPU 없는 일반 사용자가 로컬에서 실행하기 어렵다.
Technical Solution
- 모델 변환: HuggingFace 모델을 OpenVINO Intermediate Representation(IR) 형식으로 변환하여 Intel CPU 최적화 실행
- Weight-only Quantization: FP32에서 INT8로 가중치 정밀도를 축소하여 모델 크기 감소 및 메모리 효율성 개선
- Static Quantization: Vision encoder에 가중치와 활성화 모두 INT8로 양자화 적용, 나머지 모델에는 Weight-only Quantization 적용
- 캘리브레이션: Static Quantization 시 50개 샘플 데이터셋을 사용하여 활성화 양자화 파라미터 추정
- 런타임 최적화: OpenVINO 2024.3 이상에서 가중치 양자화 시 런타임에 자동 활성화 양자화 수행
Impact
- Time to First Token(TTFT): 5초 이상에서 0.42초로 12배 단축
- 처리량: 0.7 tokens/s에서 47 tokens/s로 65배 증대
- Weight-only Quantization 적용 시: TTFT 추가 1.7배 단축, 처리량 추가 1.4배 증대
Key Takeaway
Small VLM과 양자화 기법을 결합하면 GPU 없는 Intel CPU에서도 실시간 비전-언어 추론을 달성할 수 있으며, Vision encoder 같은 초기 레이어에 Static Quantization을 선택적으로 적용하는 것이 정확도 손실 최소화와 성능 개선의 균형 전략이다.
실천 포인트
VLM 또는 멀티모달 모델을 Intel CPU 기반 엣지 디바이스에 배포해야 하는 팀에서 Optimum Intel의 Weight-only Quantization부터 시작하면 모델 크기와 메모리 사용량을 즉시 감소시킬 수 있으며, 추가 정확도 테스트 후 Vision encoder에만 Static Quantization을 적용하면 단순 가중치 양자화 대비 처리량을 1.4배 이상 증대시킬 수 있다.