7.5Hz 토크나이저 기반 3,200배 압축으로 90분 오디오 단일 패스 처리

One Open Source Project a Day (No.51): VibeVoice - Microsoft's Speech AI That Processes 90 Minutes of Audio in a Single Pass

WonderLab2026년 4월 29일11분advanced

AI 요약

Context

기존 Speech AI는 짧은 오디오 처리에 최적화되어 장시간 음성 처리 시 세그먼트 분할로 인한 Speaker Tracking 단절과 글로벌 컨텍스트 손실 발생. Whisper 등 기존 ASR 모델의 30초 단위 청크 처리 방식에 따른 구조적 한계 존재.

7.5Hz Ultra-low Framerate Tokenizer 도입을 통한 90분 오디오의 약 40,500개 토큰 압축으로 LLM Context Window 내 수용 가능 구조 설계
원시 오디오 대비 3,200배의 고효율 압축률을 달성하여 Single-pass 추론이 가능한 아키텍처 구현
LLM Backbone과 Diffusion Head의 하이브리드 구조를 통한 시맨틱 이해와 어쿠스틱 생성의 역할 분리
Continuous Latent Space 활용을 통한 Discrete Token 방식 대비 고충실도 음성 생성 성능 확보
vLLM Inference Backend 통합을 통한 고처리량 프로덕션 배포 최적화
LoRA Fine-tuning 지원을 통한 최소 레이블 데이터 기반의 억양 및 도메인 특화 적응 구조 채택

입력 데이터의 해상도를 획기적으로 낮춘 Ultra-low Framerate 토큰화 전략을 통해, 데이터 분할 없이 LLM의 Context Window 내에서 장기 의존성을 유지하는 End-to-End 처리 설계 가능

실천 포인트

1. 장시간 시퀀스 처리 시 데이터 분할(Chunking) 대신 압축률을 높인 Tokenizer 도입 검토

2. Semantic 분석(LLM)과 Signal 생성(Diffusion)의 역할을 분리한 Hybrid Architecture 적용 고려

3. 추론 지연 시간 단축을 위해 모델 파라미터 규모별(

0.5B ~ 7B) 목적 기반 모델 라인업 구성

4. 도메인 특화 성능 향상을 위해 전체 재학습 대신 LoRA 기반의 경량 튜닝 파이프라인 구축

태그