피드로 돌아가기
Dev.toAI/ML
원문 읽기
Qwen3-0.6B 기반 Diffusion-LLM 하이브리드로 600+ 언어 40배속 추론 달성
OmniVoice: Open-Source TTS with 600+ Languages and Zero-Shot Voice Cloning
AI 요약
Context
기존 TTS 모델들은 Diffusion의 고품질 음성 생성 능력과 Autoregressive 모델의 빠른 추론 속도 사이에서 Trade-off가 발생함. 특히 다국어 Zero-shot Voice Cloning 구현 시 추론 지연 시간 증가와 높은 컴퓨팅 리소스 요구라는 병목 지점이 존재함.
Technical Solution
- Diffusion Language Model 하이브리드 아키텍처 설계를 통한 고품질 음성 생성과 추론 속도 동시 확보
- Qwen3-0.6B LLM을 Base 모델로 채택하여 소비자용 GPU 및 Apple Silicon MPS 환경에서 구동 가능한 경량화 실현
- Reference Audio의 임베딩을 사전 계산하는 Prompt Caching 기법을 통한 장문 생성 시 처리량(Throughput) 최적화
- Whisper 모델 기반의 Auto-transcription 연동으로 Reference Text 입력 단계 생략 및 사용자 경험 개선
- Inline Token 방식을 통한 비언어적 요소(laughter, sigh 등) 제어 및 CMU/Pinyin 표기법 기반의 Pronunciation Override 구현
- Voice Design 모드에서 자연어 속성 정의를 통한 Reference Audio 없는 음성 합성 구조 설계
Impact
- RTF 0.025 달성으로 실시간 대비 40배 빠른 추론 속도 확보
- 600개 이상의 언어를 Zero-shot 방식으로 지원
- 3~10초의 짧은 Reference Audio만으로 Voice Cloning 가능
- Apache 2.0 라이선스 적용으로 상업적 이용 비용 제로화
Key Takeaway
특정 도메인(TTS)의 품질 향상을 위해 서로 다른 특성을 가진 두 아키텍처(Diffusion, LLM)를 결합한 하이브리드 설계가 성능과 효율의 균형을 잡는 핵심 전략임.
실천 포인트
- 일관된 음성 톤 유지를 위해 Voice Design 결과물을 Reference Audio로 재사용하는 파이프라인 구축 - Throughput 극대화를 위해 `create_voice_clone_prompt`를 활용한 Prompt Caching 적용 - 음성 합성의 정확도 향상을 위해 WeTextProcessing 등을 통한 숫자 데이터의 Word Normalization 전처리 수행 - 타겟 언어의 억양 오염(Accent Bleed) 방지를 위해 해당 언어 네이티브 스피커의 Reference Audio 확보