피드로 돌아가기
Dev.toAI/ML
원문 읽기
Local-first 아키텍처 기반의 저지연 Private Voice AI Agent 구현
Building Mini Gravity: A Local, Private Voice AI Agent
AI 요약
Context
개인 데이터 유출 방지를 위해 로컬 환경에서 동작하는 고성능 Voice AI Agent 구축 필요성 대두. 기존 LLM의 대화형 필러(Filler) 발생으로 인한 파일 시스템 쓰기 오류 및 STT의 음성 인식 오차로 인한 파일 매칭 실패 문제 직면.
Technical Solution
- Whisper-large-v3 기반의 STT Layer를 통해 sub-second 단위의 실시간 전사 처리 구현
- DeepSeek-Coder-6.7B 모델 채택으로 대화형 불순물을 제거하고 구조화된 JSON Intent 생성 최적화
- LLM을 내비게이터로, Python 기반의 Primitives를 엔진으로 분리하여 예측 가능한 고속 로직 실행 구조 설계
- REST API 아키텍처 도입을 통한 Local Subprocess 호출 시 발생하는 Silent Deadlock 문제 해결
- 현재 세션의 문서 목록을 참조하여 오인식된 파일명을 보정하는 Context-Aware 스냅핑 시스템 적용
실천 포인트
1. LLM 출력값을 직접 파일/시스템에 반영할 경우, 대화형 텍스트 제거를 위해 코드 특화 모델(Coder-LLM) 검토
2. STT 오인식 대응을 위해 사용자 세션 컨텍스트 기반의 후처리 보정 로직 구현
3. 로컬 프로세스 간 통신 시 Deadlock 방지를 위해 Subprocess 대신 REST API 인터페이스 고려
4. 복잡한 태스크 수행 시 LLM에 전권을 맡기지 말고, 견고하게 정의된 Primitives(기능 단위)를 호출하는 구조 설계