피드로 돌아가기
GeekNewsAI/ML
원문 읽기
VibeVoice - 오픈소스 프론티어 음성 AI 모델
7.5Hz 초저 프레임 레이트 토크나이저 기반의 고효율 음성 AI 모델
AI 요약
Context
기존 음성 처리 모델의 긴 시퀀스 연산 부하와 화자 분리(Speaker Diarization)를 위한 별도 파이프라인 구축의 복잡성 해결 필요. 연산 효율성을 유지하며 고품질 음향 디테일을 생성하는 통합 구조 설계가 핵심 과제.
Technical Solution
- 7.5Hz 초저 프레임 레이트 연속 음성 토크나이저 도입을 통한 긴 시퀀스의 연산 효율성 극대화
- Next-token Diffusion 프레임워크 채택으로 LLM의 문맥 이해도와 Diffusion Head의 세부 음향 생성 능력 결합
- Speaker Diarization 기능을 모델 자체에 내장하여 Who, When, What을 단일 패스로 구조화 출력하는 ASR 설계
- vLLM 추론 지원 및 Qwen2.5 1.5B 베이스 모델 활용을 통한 추론 속도 최적화
- Streaming 텍스트 입력 지원 구조를 통한 Realtime 모델의 저지연 응답 구현
Impact
- VibeVoice-ASR: 단일 패스로 최대 60분 오디오 처리 가능
- VibeVoice-Realtime: 첫 음성 출력까지의 지연 시간(Latency) 약 300ms 달성
- 실측 성능: 128GB M5 Max 환경에서 1시간 분량 오디오를 약 8분 45초 만에 처리
실천 포인트
1. 긴 시퀀스 데이터 처리 시 연산 비용 절감을 위해 초저 프레임 레이트 토크나이저 도입 검토
2. 다단계 파이프라인(ASR $\rightarrow$ Diarization)의 지연 시간을 줄이기 위해 End-to-End 통합 모델 구조 설계 고려
3. 실시간 인터랙션 서비스 구현 시
0.5B 수준의 경량 모델과 Streaming 입력 구조 조합 검토