피드로 돌아가기
Open ASR Leaderboard: Trends and Insights with New Multilingual & Long-Form Tracks
Hugging Face BlogHugging Face Blog
AI/ML

Open ASR Leaderboard가 다국어 및 장형 음성 트랙 추가로 60개 이상 ASR 모델을 11개 데이터셋에서 비교 가능하게 확장

Open ASR Leaderboard: Trends and Insights with New Multilingual & Long-Form Tracks

2025년 11월 21일10intermediate

Context

ASR 모델 벤치마크는 주로 30초 이하의 단문형 영어 음성 인식에만 집중되어 있으며, 다국어 성능과 모델 처리량(throughput)이라는 중요한 평가 항목이 누락되어 있었다. 회의 녹취, 팟캐스트 같은 장형 음성 처리에서는 닫힌 소스 시스템만이 우수한 성능을 보이고 있는 상황이었다.

Technical Solution

  • Conformer 인코더 + LLM 디코더 조합으로 영어 음성 인식 정확도 최고 달성: NVIDIA의 Canary-Qwen-2.5B, IBM의 Granite-Speech-3.3-8B, Microsoft의 Phi-4-Multimodal-Instruct가 최저 WER 기록
  • CTC/TDT 디코더 채택으로 처리 속도 10~100배 향상: NVIDIA의 Parakeet CTC 1.1B가 RTFx 2793.75 달성 (Whisper Large v3의 68.56 대비)
  • Fast Conformer 도입으로 기존 Conformer 대비 2배 속도 개선: NVIDIA의 Canary, Parakeet 모델 스위트에 적용
  • 다국어 벤치마크 확대: OpenAI Whisper Large v3의 99개 언어 지원 및 Distil-Whisper, CrisperWhisper 같은 세분화 모델 평가
  • 초대형 언어 모델(MMS, Omnilingual ASR) 평가: 1K개 이상 언어 지원하지만 언어별 인코더 대비 정확도 미흡

Impact

  • Parakeet CTC 1.1B의 처리량: RTFx 2793.75 vs Whisper Large v3의 68.56배 이상 차이
  • Parakeet CTC WER: 6.68 vs Whisper Large v3의 6.43 (처리량 극대화 대비 0.25 오차율 증가)
  • 벤치마크 규모: 18개 조직의 60개 이상 모델 평가, 11개 데이터셋 기반 비교

Key Takeaway

영어 정확도 최적화와 다국어 지원, 장형 음성 처리 속도 간의 근본적 트레이드오프가 존재하므로, ASR 모델 선택 시 정확도 단일 지표가 아닌 처리량, 언어 커버리지, 음성 형식을 모두 고려한 다차원 벤치마킹이 필수적이다.


실시간 음성 처리 서비스에서 CTC/TDT 기반 Conformer 모델을 도입하면 처리량을 10~100배 향상시킬 수 있으며, 정확도 손실(

0.25% WER 이내)이 미미한 경우 선택 가능하다. 반면 다국어 지원이 필수인 경우 OpenAI Whisper Large v3 같은 범용 모델을 기준으로 삼되, 영어 단일 언어 최적화(Distil-Whisper)로는 다국어 성능이 저하되므로 타깃 언어에 맞는 세분화 모델 직접 학습을 검토해야 한다.

원문 읽기