Qwen3-0.6B 기반 Diffusion-LLM 하이브리드로 600+ 언어 40배속 추론 달성

OmniVoice: Open-Source TTS with 600+ Languages and Zero-Shot Voice Cloning

정상록2026년 4월 21일5분intermediate

AI 요약

Context

기존 TTS 모델들은 Diffusion의 고품질 음성 생성 능력과 Autoregressive 모델의 빠른 추론 속도 사이에서 Trade-off가 발생함. 특히 다국어 Zero-shot Voice Cloning 구현 시 추론 지연 시간 증가와 높은 컴퓨팅 리소스 요구라는 병목 지점이 존재함.

Technical Solution

Diffusion Language Model 하이브리드 아키텍처 설계를 통한 고품질 음성 생성과 추론 속도 동시 확보
Qwen3-0.6B LLM을 Base 모델로 채택하여 소비자용 GPU 및 Apple Silicon MPS 환경에서 구동 가능한 경량화 실현
Reference Audio의 임베딩을 사전 계산하는 Prompt Caching 기법을 통한 장문 생성 시 처리량(Throughput) 최적화
Whisper 모델 기반의 Auto-transcription 연동으로 Reference Text 입력 단계 생략 및 사용자 경험 개선
Inline Token 방식을 통한 비언어적 요소(laughter, sigh 등) 제어 및 CMU/Pinyin 표기법 기반의 Pronunciation Override 구현
Voice Design 모드에서 자연어 속성 정의를 통한 Reference Audio 없는 음성 합성 구조 설계

Impact

RTF 0.025 달성으로 실시간 대비 40배 빠른 추론 속도 확보
600개 이상의 언어를 Zero-shot 방식으로 지원
3~10초의 짧은 Reference Audio만으로 Voice Cloning 가능
Apache 2.0 라이선스 적용으로 상업적 이용 비용 제로화

Key Takeaway

특정 도메인(TTS)의 품질 향상을 위해 서로 다른 특성을 가진 두 아키텍처(Diffusion, LLM)를 결합한 하이브리드 설계가 성능과 효율의 균형을 잡는 핵심 전략임.

실천 포인트

- 일관된 음성 톤 유지를 위해 Voice Design 결과물을 Reference Audio로 재사용하는 파이프라인 구축 - Throughput 극대화를 위해 `create_voice_clone_prompt`를 활용한 Prompt Caching 적용 - 음성 합성의 정확도 향상을 위해 WeTextProcessing 등을 통한 숫자 데이터의 Word Normalization 전처리 수행 - 타겟 언어의 억양 오염(Accent Bleed) 방지를 위해 해당 언어 네이티브 스피커의 Reference Audio 확보

태그

#Diffusion Language Model #Prompt Caching #Zero-shot Voice Cloning #RTF #TTS

원문 읽기