Hugging Face가 vLLM, torch.compile, CUDA graphs, float8 KV cache를 조합해 Whisper 음성인식 추론 성능을 8배 향상

Blazingly fast whisper transcriptions with Inference Endpoints

2025년 5월 13일8분intermediate

AI 요약

Context

OpenAI Whisper 모델을 Inference Endpoints에서 배포할 때 기존 Transformers 라이브러리 구현 대비 추론 속도가 느렸다. 실시간 음성 전사(Real-time transcription) 애플리케이션을 구축하려면 더 빠른 추론 속도가 필수였다.

Technical Solution

vLLM 프레임워크 도입: OpenAI Whisper 모델의 vLLM 구현을 사용해 하위 수준의 소프트웨어 최적화 활성화
PyTorch 컴파일 적용: torch.compile으로 Just-In-Time 커널 생성 및 계산 그래프 재정렬
CUDA graphs 활용: GPU 커널 실행 흐름을 기록하고 작은 작업 단위들을 큰 단위로 그룹화해 데이터 이동과 스케줄링 오버헤드 감소
float8 KV cache 양자화: KV cache의 활성화(activation)를 반정밀도(bfloat16)에서 float8(1바이트)로 동적 양자화해 메모리 요구사항 감소 및 캐시 히트율 증가
NVIDIA L4 & L40s GPU 타겟: 컴퓨팅 능력 8.9 이상의 Ada Lovelace 아키텍처 GPU에서 위 최적화 기술 활용

Impact

Whisper Large V3 모델의 Real-Time Factor(RTFx) 약 8배 개선
8개 표준 데이터셋(AMI, GigaSpeech, LibriSpeech, SPGISpeech, Tedlium, VoxPopuli, Earnings22)에서 Word Error Rate(WER) 성능 유지
45분 이상의 장형 오디오 샘플에서 추론 효율성 확인

Key Takeaway

오픈소스 커뮤니티 프로젝트(vLLM)와 PyTorch 저수준 최적화(torch.compile, CUDA graphs, 양자화)를 특정 하드웨어 아키텍처에 맞춰 조합하면, 소프트웨어 스택 전체에서 8배의 성능 향상을 달성할 수 있다. 이는 정확성을 희생하지 않으면서 프로덕션 추론 비용을 대폭 낮출 수 있음을 시사한다.

실천 포인트

음성 전사, 실시간 트랜스크립션 애플리케이션을 구축하는 팀은 vLLM 기반의 Whisper 배포와 torch.compile, CUDA graphs, float8 양자화를 함께 사용하면, 기존 Transformers 구현 대비 8배 빠른 추론 속도를 얻으면서 전사 품질은 그대로 유지할 수 있다.

태그

#Model optimization #Real-time Inference #Whisper #vLLM #CUDA

원문 읽기