Hugging Face가 Speculative Decoding을 OpenAI Whisper에 적용해 추론 속도 2배 향상과 동일한 정확도 유지

Speculative Decoding for 2x Faster Whisper Inference

2023년 12월 20일8분intermediate

AI 요약

Context

OpenAI의 Whisper large-v3 모델은 음성 전사에서 최고 수준의 정확도를 달성하지만, 16GB T4 GPU에서 1시간 음성 클립을 전사하는 데 6분 이상 소요된다. Flash Attention, 반정밀도, 청킹 등의 최적화 기법을 적용해도 추론 속도가 느린 상황이었다.

Technical Solution

Assistant 모델을 이용한 투단계 검증: 빠른 Assistant 모델이 N개의 토큰 후보를 생성하고, Main 모델이 단일 포워드 패스로 이들을 검증
토큰 불일치 시 조기 종료: 첫 번째 불일치 지점까지의 토큰은 정확하므로 수용하고, 불일치 이후 토큰은 폐기
어휘집 동기화 제약: Assistant 모델은 Main 모델과 동일한 Tokenizer를 사용해야 함(Large-v3 제외)
Assistant 모델 선정 기준: Main 모델보다 최소 3배 이상 빠르면서 "쉬운" 토큰(전체의 70-80%)을 정확히 예측하는 모델 선택
배치 크기 제한: 배치 크기 1에서 최대 성능 향상을 확인하며, 배치 크기 4 초과 시 Main 모델 단독 사용보다 느림

Impact

추론 시간 2배 감소 달성
동일한 토큰 시퀀스 검증을 통한 수학적 출력 동일성 보장
배치 크기 1에서 가장 큰 속도 향상

Key Takeaway

Speculative Decoding은 Main 모델의 검증을 통해 출력 정확성을 보장하므로 기존 Whisper 파이프라인의 드롭인 대체품으로 활용 가능하며, 추론 속도 향상과 품질 보장이 동시에 가능한 무비용 최적화 전략이다.

실천 포인트

Whisper 기반 음성 전사 서비스에서 Tiny 버전을 Assistant 모델로 지정해 Speculative Decoding을 적용하면, 배치 크기 1의 단일 요청 환경에서 2배 빠른 전사 속도를 얻을 수 있으며, 동일한 토큰 검증 메커니즘으로 인해 전사 정확도는 보존된다.

태그

#Whisper #Speculative Decoding #Speech Recognition #Inference Optimization

원문 읽기