피드로 돌아가기
Dev.toAI/ML
원문 읽기
로컬 하드웨어 기반 10초 이내 Round-trip Private Voice Assistant 구현
Build a Private Voice Assistant with Whisper, Ollama, and Kokoro TTS
AI 요약
Context
클라우드 기반 AI 서비스의 데이터 프라이버시 침해 우려와 지속적인 API 비용 발생 문제 해결 필요. 외부 네트워크 의존성을 제거한 완전한 On-device 음성 인터페이스 구축을 목표로 함.
Technical Solution
- Whisper.cpp의 C++ 포팅 모델을 활용한 CPU 기반 고효율 STT 처리 구조 설계
- Ollama 프레임워크 기반 qwen3:14b 모델 배포를 통한 로컬 LLM 추론 환경 구축
- Kokoro TTS 파이프라인 도입으로 추론 지연 시간을 최소화한 실시간 음성 합성 구현
- Python subprocess 및 tempfile을 활용한 STT-LLM-TTS 간의 비동기 데이터 흐름 제어
- Hardware 가속기(RTX 3060)와 CPU 자원을 분산 배치한 하이브리드 연산 최적화
Impact
- Whisper medium 모델 기준 CPU 전사 속도 2-4초 달성
- RTX 3060 환경에서 qwen3:14b 모델 추론 시간 3-5초 기록
- Kokoro TTS의 1초 미만 Latency를 통한 실시간 음성 출력 구현
- 전체 시스템 Round-trip Latency 약 10초 수준 유지
Key Takeaway
특정 도메인 최적화 모델(Whisper.cpp)과 경량화 런타임(Ollama)의 조합을 통한 Local-first AI 아키텍처의 실현 가능성 확인.
실천 포인트
- 응답 속도 개선을 위해 Whisper tiny 모델 또는 Llama
3.1 8B 등 파라미터 수가 적은 모델 검토 - I/O 병목 제거를 위해 임시 파일 기반 전달 방식에서 메모리 스트림 방식으로 전환 고려 - 하드웨어 제약 사항에 따른 모델 Quantization 수준 결정 및 벤치마크 수행