7.5Hz 저프레임 토크나이저 기반 90분 장기 음성 생성 및 60분 단일 패스 ASR 구현

Microsoft VibeVoice: Open-Source Frontier Voice AI

2026년 4월 28일4분advanced

AI 요약

Context

기존 ASR 모델의 오디오 슬라이싱 방식으로 인한 Global Context 손실 및 일관성 결여 문제 발생. 장시간 음성 처리 시 연산 비용 증가와 화자 추적 유지의 기술적 한계 존재.

Technical Solution

7.5Hz 초저프레임 레이트의 Continuous Speech Tokenizer(Acoustic/Semantic) 도입을 통한 연산 효율성 및 오디오 충실도 동시 확보
LLM 기반의 Next-token Diffusion Framework 설계로 텍스트 문맥 이해와 고충실도 음향 세부 정보 생성을 분리하여 처리
64K Token Length 확보를 통한 60분 분량의 오디오 단일 패스(Single-pass) 처리 구조 설계로 화자 추적 및 의미론적 일관성 유지
Customized Hotwords 주입 메커니즘을 통한 도메인 특화 용어 인식 정확도 개선
0.5B 파라미터 규모의 경량화 설계를 통한 Real-time Streaming TTS 구현 및 배포 최적화

Impact

ASR: 최대 60분 분량의 오디오를 단일 패스로 처리
TTS: 최대 90분 길이의 장기 음성 합성 및 최대 4인 화자 일관성 유지
Latency: Real-time TTS 기준 첫 오디오 출력까지 약 300ms의 Low Latency 달성
Efficiency: 7.5Hz의 ultra-low frame rate를 통한 시퀀스 처리 효율 극대화

Key Takeaway

고해상도 데이터를 초저프레임 토크나이저로 압축하고 Diffusion Head로 디테일을 복원하는 계층적 구조가 Long-form 시퀀스 처리의 핵심 설계 원칙임.

실천 포인트

- 장시간 시퀀스 처리 시 데이터 슬라이싱 대신 토큰 길이를 확장한 Single-pass 구조 검토 - 연산 효율을 위해 저해상도 토크나이징 후 고해상도 디퓨전 모델로 복원하는 파이프라인 고려 - 실시간 서비스 적용 시 First-audible Latency 목표치(예: 300ms) 설정을 통한 경량 모델 튜닝

태그

#Long-form Audio #Diffusion Model #ASR #TTS #Speech Tokenizer

원문 읽기