CPU 기반 TTS 최적화를 위한 아키텍처별 TTFB 및 메모리 Trade-off 분석

Choosing the Right Voice: A Technical Comparison of Pocket Studio Models

alfchee2026년 4월 15일4분intermediate

AI 요약

Context

로컬 CPU 환경에서 고품질 TTS 구현을 위한 Latency, Speaker Fidelity, Prosody Naturalism 간의 상충 관계 해결 필요. 단일 모델로는 임베디드 환경의 저지연 요구사항과 대화형 AI의 자연스러운 운율 구현을 동시에 만족시키기 어려운 한계 존재.

Technical Solution

FastSpeech2와 HiFi-GAN 조합의 Non-autoregressive 구조 채택을 통한 Mel-spectrogram 병렬 예측 및 80ms 미만 TTFB 달성
VITS2 기반 DVAE Speaker Encoder 도입을 통한 6초 분량 Reference Audio 기반 Zero-shot Voice Cloning 구현
LLM Decoder Backbone과 Flow-matching 기법 결합으로 TTS를 Continuation 문제로 정의하여 문맥 기반의 자연스러운 운율 생성
In-Context Learning(ICL) 메커니즘을 통한 ref_audio 및 ref_text 기반의 동적 음성 특성 적응 구조 설계
Docker Profile Flag를 통한 엔진 교체 가능 구조의 Unified API 인터페이스 구축으로 배포 유연성 확보

실천 포인트

- 임베디드/IoT 타겟인 경우: FastSpeech2 계열의 Non-autoregressive 모델 검토 - 다국어 지원 및 빠른 Voice Cloning이 필요한 경우: VITS2 + DVAE 구조 및 라이선스(CPML) 확인 - 고수준의 운율과 자연스러운 대화체가 필요한 경우: LLM backbone 기반 ICL 지원 모델 및 RAM 가용량(6GB+) 확인

태그

#In-Context-Learning #Text-to-Speech #Zero-shot Voice Cloning #TTFB #Non-autoregressive

원문 읽기