피드로 돌아가기
Hacker NewsAI/ML
원문 읽기
Cohere가 오디오 파일을 텍스트로 변환하는 ASR 모델 Cohere Transcribe를 출시하여 HuggingFace Open ASR Leaderboard 1위를 달성했다
Cohere Transcribe: Speech Recognition
AI 요약
Context
기존 오픈소스 ASR 모델들은 크기 대비 정확도와 처리 속도 간 트레이드오프가 존재했다. 대형 모델이 높은 정확도를 제공하지만 추론 비용과 지연시간이 증가하여 실시간 서비스 적용이 어려웠다.
Technical Solution
- Conformer 기반 encoder-decoder 구조로 음성 신호를 특징 벡터로 변환 후 토큰 생성
- 2B 파라미터 규모의 Transformer decoder를 lightweight로 설계하여 효율성 확보
- 14개 언어(영어, 프랑스어, 독일어, 중국어, 한국어 등) 학습으로 다국어 지원
- 실시간 처리량(RTFx)과 정확도(WER)를 동시에 최적화하는 Pareto frontier 달성
- HuggingFace에서 다운로드 가능하며 Model Vault를 통한 관리형 API 서비스 제공
Impact
HuggingFace Open ASR Leaderboard에서 평균 WER 5.42%로 1위 달성, Whisper Large v3(WER 7.44%) 대비 27% 개선. SPGISpeech 데이터셋에서 WER 1.25% 기록. human evaluation에서 모든 비교 모델 대비 선호도 50% 이상 확보.
Key Takeaway
오픈소스 모델도 연구 목적이 아닌 production 환경의 정확도, 속도, 배포 편의성을 동시에 충족할 수 있다
실천 포인트
기업 회의록 자동화나 실시간 자막 서비스 환경에서 HuggingFace에서 Cohere Transcribe를 다운로드하여 로컬 GPU나 Model Vault로 배포 시 높은 정확도(WER 5.42%)의 실시간 음성 인식을 구현할 수 있다