피드로 돌아가기
Dev.toAI/ML
원문 읽기
60분 음성 한 번에 처리, VibeVoice의 혁신적 토큰화 전략
Microsoft VibeVoice Deep Dive: The Voice AI That Understands a Full Hour in One Shot
AI 요약
Context
기존 음성 AI 모델은 오디오를 작은 단위로 쪼개는 Chunking 방식 사용. 긴 오디오 처리 시 컨텍스트 유지 어려움 및 연산 비용 증가 문제 발생. 양자화 과정에서 발생하는 정보 손실로 인한 음질 저하 한계 존재.
Technical Solution
- 7.5Hz의 초저프레임 연속 음성 토크나이저 설계로 1시간 오디오를 약 27,000개 토큰으로 압축
- sigma-VAE 프레임워크 기반의 7단계 계층적 인코더-디코더 구조를 통해 분산 붕괴 방지 및 스펙트럼 충실도 확보
- ASR 프록시 태스크로 학습된 시맨틱 토크나이저를 통해 콘텐츠 정렬 표현 학습 및 LLM 백본으로 전달
- 소프트맥스 기반 이산 토큰 예측 대신 LatentLM 패러다임의 Next-Token Diffusion 프레임워크 도입
- Qwen-2.5 백본의 히든 스테이트를 기반으로 DPM-Solver를 활용한 반복적 디노이징 및 고해상도 음성 생성
- 단일 포워드 패스 내에서 화자 식별(Diarization), 타임스탬프, 텍스트 전사를 동시에 처리하는 구조
Impact
- VibeVoice-Realtime: 첫 오디오 출력까지의 Latency 약 300ms 달성
- VibeVoice-ASR (MLC-Challenge): English DER 4.28% / cpWER 11.48%, German DER 1.04% / cpWER 17.10% 기록
- 오디오 다운샘플링 비율 3200배 달성
Key Takeaway
연속적인 잠재 벡터(Continuous Latent Vector)와 디퓨전 모델의 결합이 이산적 양자화의 한계를 극복하고 장기 컨텍스트의 고충실도 음성 처리를 가능케 함.
실천 포인트
장시간 회의록 작성이나 팟캐스트 분석 서비스 구축 시 VibeVoice-ASR의 단일 패스 전사 구조와 vLLM 배포 조합 검토