피드로 돌아가기
Dev.toAI/ML
원문 읽기
Microsoft VibeVoice로 3B TTS와 9B ASR 모델을 로컬 실행하여 90분 오디오 생성 및 50개 언어 음성 인식이 가능함
ما هو Microsoft VibeVoice؟ وكيفية استخدام نماذج الذكاء الاصطناعي الصوتية مفتوحة المصدر
AI 요약
Context
Microsoft에서 2026년 초 오픈소스 음성 AI 프레임워크 VibeVoice를 출시함. 클라우드 없이 로컬에서 TTS와 ASR을 실행할 수 있으나 음성 클로닝 악용 우려로 GitHub 저장소가 잠시 중단된 후 오디오 워터마크 보안 기능이 추가됨.
Technical Solution
- VibeVoice-1.5B: Qwen2.5-1.5B 기반 TTS 모델로 최대 90분 오디오 생성, 4명 화자 지원
- VibeVoice-Realtime-0.5B: ~300ms 지연 시간의 스트리밍 TTS 모델
- VibeVoice-ASR: Qwen2.5 기반 ~9B 파라미터 ASR 모델로 60분 오디오 처리, 50개 이상 언어 지원
- 7.5Hz 오디오 토크나이저: sigma-VAE와 시맨틱 토크나이저를 결합하여 3200x 샘플 감소
- Next-token Diffusion: LLM과 123M 디퓨전 헤드를 결합한 하이브리드 아키텍처
Impact
62,630+ 월간 HuggingFace 다운로드, 2,280+ 좋아요, 79개 이상 HuggingFace Spaces, 12개 커뮤니티 파인 튜닝 포크. 영어 WER 7.77%, LibriSpeech WER 2.20%.
Key Takeaway
VibeVoice의 7.5Hz 오디오 토크나이저와 LLM + Diffusion 하이브리드 아키텍처가 90분 이상의 긴 오디오 처리를 가능하게 함. 모든 모델이 MIT 라이선스로 완전한 로컬 실행과 상업적 사용을 허용함.
실천 포인트
TTS 추론에는 7GB 이상 VRAM, ASR 추론에는 24GB 이상 VRAM이 필요함. Gradio 데모로 음성 클로닝(30-60초 참조 오디오)하거나 API 통합으로 프로덕션 배포할 수 있음. Azure AI Foundry로 클라우드 배포도 가능함.