피드로 돌아가기
VibeVoice - 오픈소스 프론티어 음성 AI 모델
GeekNewsGeekNews
AI/ML

VibeVoice - 오픈소스 프론티어 음성 AI 모델

7.5Hz 초저 프레임 레이트 기반 고효율 음성 AI VibeVoice 공개

xguru2026년 4월 28일3advanced

Context

기존 음성 모델의 긴 시퀀스 연산 부하 및 화자 분리(Speaker Diarization)를 위한 별도 파이프라인 구성의 복잡성 존재. 오디오 품질 유지와 추론 효율성 사이의 Trade-off 해결 필요.

Technical Solution

  • 7.5Hz 초저 프레임 레이트 연속 음성 토크나이저 도입을 통한 연산 효율성 극대화
  • Next-token Diffusion 프레임워크 채택으로 LLM의 맥락 이해와 Diffusion Head의 음향 디테일 생성 분리
  • ASR 모델 내 Speaker Diarization 기능을 내장하여 단일 패스로 Who, When, What 구조화 출력 구현
  • vLLM 추론 엔진 지원을 통한 인퍼런스 속도 최적화 및 배포 효율성 확보
  • Qwen2.5 1.5B 베이스 모델 활용을 통한 언어 이해 능력 상속 및 다국어 확장성 확보

Impact

  • VibeVoice-ASR (7B): 단일 패스로 최대 60분 오디오 처리 가능
  • VibeVoice-Realtime (0.5B): 첫 음성 출력까지의 First-token Latency 약 300ms 달성
  • 실측 성능: M5 Max MacBook Pro 기준 1시간 분량 오디오를 약 8분 45초 만에 처리

Key Takeaway

토크나이저의 프레임 레이트를 극단적으로 낮추면서 Diffusion 모델로 디테일을 보완하는 하이브리드 구조를 통해 시퀀스 길이 문제와 품질 문제를 동시에 해결함.


1. 긴 오디오 처리 시 연산 비용 절감을 위해 토크나이저의 프레임 레이트 최적화 검토

2. 화자 분리가 필요한 서비스 설계 시 별도 모듈 대신 통합 모델(End-to-End) 채택 가능성 확인

3. 실시간 TTS 구현 시

0.5B 이하의 경량 모델과 스트리밍 입력 구조 결합 고려

원문 읽기