피드로 돌아가기
Cohere Transcribe - SOTA 오픈소스 음성 인식 모델
GeekNewsGeekNews
AI/ML

Cohere Transcribe - SOTA 오픈소스 음성 인식 모델

SOTA ASR 모델 Cohere Transcribe의 성능 분석과 실무 적용 한계

xguru2026년 4월 3일4intermediate

Context

기존 ASR 모델의 빈번한 환각 현상과 단어 단위 타임스탬프의 불안정성 문제. 화자 분리 기능의 부재 및 특정 외국어 억양에 대한 낮은 인식률. 클라우드 전송 비용 절감을 위한 로컬 처리 기반 STT의 필요성 증대.

Technical Solution

  • 2B 파라미터 규모의 모델 설계로 Parakeet 대비 높은 WER 벤치마크 성능 확보
  • Hugging Face를 통한 모델 가중치 공개 및 ONNX 변환 지원으로 CPU 실행 환경 제공
  • Dynamic Time Warping 기반의 whisper-timestamped 방식을 통한 cross-attention 가중치 정렬 전략
  • 멀티모달 LLM의 문맥 이해 능력을 활용한 전문 용어 및 조직도 기반의 인물 구분 최적화
  • Clip-style embedding 모델 도입을 통한 P50 지연 시간의 안정적 유지 설계

Impact

  • 영국 우편번호 음성 데이터셋 테스트 결과: Soniox 71%, ElevenLabs 68.5%, AssemblyAI 66.9%, Deepgram 63.7%, Cohere 59.7%, Speechmatics 54% 순의 정확도 기록

Key Takeaway

단순 벤치마크 성능보다 실제 도메인 특화 데이터셋을 통한 검증이 중요하며 로컬 실행 가능성과 모델 크기 간의 Trade-off 고려가 필수적임.


정밀한 타임스탬프와 화자 분리가 필수적인 서비스라면 WhisperX나 Mistral Voxtral의 통합 패키지 도입을 우선 검토할 것

원문 읽기