피드로 돌아가기
GeekNewsAI/ML
원문 읽기
VibeVoice - 오픈소스 프론티어 음성 AI 모델
7.5Hz 초저 프레임 레이트 기반 고효율 음성 AI VibeVoice 공개
AI 요약
Context
기존 음성 모델의 긴 시퀀스 연산 부하 및 화자 분리(Speaker Diarization)를 위한 별도 파이프라인 구성의 복잡성 존재. 오디오 품질 유지와 추론 효율성 사이의 Trade-off 해결 필요.
Technical Solution
- 7.5Hz 초저 프레임 레이트 연속 음성 토크나이저 도입을 통한 연산 효율성 극대화
- Next-token Diffusion 프레임워크 채택으로 LLM의 맥락 이해와 Diffusion Head의 음향 디테일 생성 분리
- ASR 모델 내 Speaker Diarization 기능을 내장하여 단일 패스로 Who, When, What 구조화 출력 구현
- vLLM 추론 엔진 지원을 통한 인퍼런스 속도 최적화 및 배포 효율성 확보
- Qwen2.5 1.5B 베이스 모델 활용을 통한 언어 이해 능력 상속 및 다국어 확장성 확보
Impact
- VibeVoice-ASR (7B): 단일 패스로 최대 60분 오디오 처리 가능
- VibeVoice-Realtime (0.5B): 첫 음성 출력까지의 First-token Latency 약 300ms 달성
- 실측 성능: M5 Max MacBook Pro 기준 1시간 분량 오디오를 약 8분 45초 만에 처리
Key Takeaway
토크나이저의 프레임 레이트를 극단적으로 낮추면서 Diffusion 모델로 디테일을 보완하는 하이브리드 구조를 통해 시퀀스 길이 문제와 품질 문제를 동시에 해결함.
실천 포인트
1. 긴 오디오 처리 시 연산 비용 절감을 위해 토크나이저의 프레임 레이트 최적화 검토
2. 화자 분리가 필요한 서비스 설계 시 별도 모듈 대신 통합 모델(End-to-End) 채택 가능성 확인
3. 실시간 TTS 구현 시
0.5B 이하의 경량 모델과 스트리밍 입력 구조 결합 고려