Microsoft VibeVoice로 3B TTS와 9B ASR 모델을 로컬 실행하여 90분 오디오 생성 및 50개 언어 음성 인식이 가능함

ما هو Microsoft VibeVoice؟ وكيفية استخدام نماذج الذكاء الاصطناعي الصوتية مفتوحة المصدر

Yusuf Khalidd2026년 4월 2일9분intermediate

AI 요약

Context

Microsoft에서 2026년 초 오픈소스 음성 AI 프레임워크 VibeVoice를 출시함. 클라우드 없이 로컬에서 TTS와 ASR을 실행할 수 있으나 음성 클로닝 악용 우려로 GitHub 저장소가 잠시 중단된 후 오디오 워터마크 보안 기능이 추가됨.

62,630+ 월간 HuggingFace 다운로드, 2,280+ 좋아요, 79개 이상 HuggingFace Spaces, 12개 커뮤니티 파인 튜닝 포크. 영어 WER 7.77%, LibriSpeech WER 2.20%.

VibeVoice의 7.5Hz 오디오 토크나이저와 LLM + Diffusion 하이브리드 아키텍처가 90분 이상의 긴 오디오 처리를 가능하게 함. 모든 모델이 MIT 라이선스로 완전한 로컬 실행과 상업적 사용을 허용함.

실천 포인트

TTS 추론에는 7GB 이상 VRAM, ASR 추론에는 24GB 이상 VRAM이 필요함. Gradio 데모로 음성 클로닝(30-60초 참조 오디오)하거나 API 통합으로 프로덕션 배포할 수 있음. Azure AI Foundry로 클라우드 배포도 가능함.

태그