피드로 돌아가기
ما هو Microsoft VibeVoice؟ وكيفية استخدام نماذج الذكاء الاصطناعي الصوتية مفتوحة المصدر
Dev.toDev.to
AI/ML

Microsoft VibeVoice로 3B TTS와 9B ASR 모델을 로컬 실행하여 90분 오디오 생성 및 50개 언어 음성 인식이 가능함

ما هو Microsoft VibeVoice؟ وكيفية استخدام نماذج الذكاء الاصطناعي الصوتية مفتوحة المصدر

Yusuf Khalidd2026년 4월 2일9intermediate

Context

Microsoft에서 2026년 초 오픈소스 음성 AI 프레임워크 VibeVoice를 출시함. 클라우드 없이 로컬에서 TTS와 ASR을 실행할 수 있으나 음성 클로닝 악용 우려로 GitHub 저장소가 잠시 중단된 후 오디오 워터마크 보안 기능이 추가됨.

Technical Solution

  • VibeVoice-1.5B: Qwen2.5-1.5B 기반 TTS 모델로 최대 90분 오디오 생성, 4명 화자 지원
  • VibeVoice-Realtime-0.5B: ~300ms 지연 시간의 스트리밍 TTS 모델
  • VibeVoice-ASR: Qwen2.5 기반 ~9B 파라미터 ASR 모델로 60분 오디오 처리, 50개 이상 언어 지원
  • 7.5Hz 오디오 토크나이저: sigma-VAE와 시맨틱 토크나이저를 결합하여 3200x 샘플 감소
  • Next-token Diffusion: LLM과 123M 디퓨전 헤드를 결합한 하이브리드 아키텍처

Impact

62,630+ 월간 HuggingFace 다운로드, 2,280+ 좋아요, 79개 이상 HuggingFace Spaces, 12개 커뮤니티 파인 튜닝 포크. 영어 WER 7.77%, LibriSpeech WER 2.20%.

Key Takeaway

VibeVoice의 7.5Hz 오디오 토크나이저와 LLM + Diffusion 하이브리드 아키텍처가 90분 이상의 긴 오디오 처리를 가능하게 함. 모든 모델이 MIT 라이선스로 완전한 로컬 실행과 상업적 사용을 허용함.


TTS 추론에는 7GB 이상 VRAM, ASR 추론에는 24GB 이상 VRAM이 필요함. Gradio 데모로 음성 클로닝(30-60초 참조 오디오)하거나 API 통합으로 프로덕션 배포할 수 있음. Azure AI Foundry로 클라우드 배포도 가능함.

원문 읽기