피드로 돌아가기
GeekNewsAI/ML
원문 읽기
VoxCPM2 - 실제 음성과 비슷한 음성 복제 가능한 다국어 음성 합성 오픈소스
RTF 0.13 달성 및 48kHz 고품질 출력을 지원하는 2B 파라미터 다국어 TTS 시스템
AI 요약
Context
기존 TTS 시스템의 이산 토큰화 과정으로 인한 음성 표현력 저하 및 외부 업샘플러 의존으로 인한 파이프라인 복잡성 해결 필요. 고해상도 오디오 생성과 실시간 추론 성능 확보를 위한 통합 아키텍처 설계가 요구됨.
Technical Solution
- 이산 토큰화를 배제하고 연속적 음성 표현을 직접 생성하는 Diffusion Autoregressive 기반 구조 채택
- MiniCPM-4 백본 기반의 LocEnc → TSLM → RALM → LocDiT 4단계 파이프라인을 통한 정밀한 음성 합성 제어
- AudioVAE V2 비대칭 인코드/디코딩 방식을 통한 16kHz 입력의 48kHz 스튜디오급 직접 생성으로 후처리 단계 제거
- 200만 시간 이상의 다국어 데이터를 활용한 2B 파라미터 모델 학습으로 언어 태그 없는 제로샷 합성 구현
- LoRA 파인튜닝 기법 적용으로 5~10분 분량의 소량 데이터만으로 특정 화자 및 도메인 최적화 가능
- Nano-vLLM 가속 및 GGML/GGUF 지원을 통한 하드웨어 제약 환경에서의 추론 효율성 극대화
Impact
- RTX 4090 기준 RTF 0.3 및 Nano-vLLM 적용 시 RTF 0.13의 실시간 스트리밍 성능 확보
- 30개 언어 내부 ASR 벤치마크 평균 오류율 1.68% 기록
- VRAM 8GB 수준의 보급형 GPU(RTX 3070~4060)에서도 구동 가능한 경량성 달성
Key Takeaway
데이터 표현의 연속성을 유지하는 생성 모델 설계가 오디오 품질 향상과 파이프라인 단순화의 핵심이며, 백본 모델의 최적화와 비대칭 VAE 구조를 통해 고해상도 출력과 추론 속도라는 트레이드오프를 동시에 해결 가능함.
실천 포인트
1. 고해상도 오디오 합성이 필요할 때 외부 업샘플러 대신 비대칭 VAE 구조 검토
2. 실시간 서비스 적용을 위해 Nano-vLLM이나 GGUF와 같은 추론 가속 백엔드 도입 고려
3. 적은 데이터로 화자 적응이 필요할 경우 LoRA 기반 파인튜닝 파이프라인 구축