피드로 돌아가기
GeekNewsAI/ML
원문 읽기
Show GN: ppaso-tts : 엣지 디바이스를 위한 경량형 한국어 TTS
RK3576 NPU 최적화를 통한 실시간 경량 한국어 TTS 구현
AI 요약
Context
RK3576 칩셋의 6 TOPS NPU 환경에서 구동 가능한 한국어 TTS 모델의 부재. 기존 MeloTTS-ko 모델의 Encoder 부분 RKNN 변환 불가 및 낮은 추론 속도로 인한 실시간성 확보의 한계.
Technical Solution
- 품질보다 추론 속도에 우선순위를 둔 경량형 아키텍처 설계
- RKNN 변환 제약을 해결하기 위한 모델 구조 최적화
- NPU 가속을 통한 실시간 음성 생성 파이프라인 구축
- 엣지 디바이스의 제한된 리소스 환경에 맞춘 모델 경량화
- Apache 2.0 라이선스 기반의 오픈소스 배포를 통한 범용성 확보
실천 포인트
1. NPU 가속기 사용 시 프레임워크별 변환 가능 연산자(Operator) 지원 여부 사전 확인
2. 실시간성 확보가 필수적인 엣지 환경에서 모델 복잡도와 품질 간의 Trade-off 설정
3. 타겟 하드웨어의 TOPS 성능을 최대한 활용하는 경량 모델 아키텍처 검토