Cohere가 오디오 파일을 텍스트로 변환하는 ASR 모델 Cohere Transcribe를 출시하여 HuggingFace Open ASR Leaderboard 1위를 달성했다

Cohere Transcribe: Speech Recognition

2026년 3월 31일5분intermediate

AI 요약

Context

기존 오픈소스 ASR 모델들은 크기 대비 정확도와 처리 속도 간 트레이드오프가 존재했다. 대형 모델이 높은 정확도를 제공하지만 추론 비용과 지연시간이 증가하여 실시간 서비스 적용이 어려웠다.

Technical Solution

Conformer 기반 encoder-decoder 구조로 음성 신호를 특징 벡터로 변환 후 토큰 생성
2B 파라미터 규모의 Transformer decoder를 lightweight로 설계하여 효율성 확보
14개 언어(영어, 프랑스어, 독일어, 중국어, 한국어 등) 학습으로 다국어 지원
실시간 처리량(RTFx)과 정확도(WER)를 동시에 최적화하는 Pareto frontier 달성
HuggingFace에서 다운로드 가능하며 Model Vault를 통한 관리형 API 서비스 제공

Impact

HuggingFace Open ASR Leaderboard에서 평균 WER 5.42%로 1위 달성, Whisper Large v3(WER 7.44%) 대비 27% 개선. SPGISpeech 데이터셋에서 WER 1.25% 기록. human evaluation에서 모든 비교 모델 대비 선호도 50% 이상 확보.

Key Takeaway

오픈소스 모델도 연구 목적이 아닌 production 환경의 정확도, 속도, 배포 편의성을 동시에 충족할 수 있다

실천 포인트

기업 회의록 자동화나 실시간 자막 서비스 환경에서 HuggingFace에서 Cohere Transcribe를 다운로드하여 로컬 GPU나 Model Vault로 배포 시 높은 정확도(WER

5.42%)의 실시간 음성 인식을 구현할 수 있다

태그

#Open Source #HuggingFace #ASR #Conformer #Speech Recognition

원문 읽기