피드로 돌아가기
Local Ai Agent
Dev.toDev.to
AI/ML

Whisper와 LLM 기반의 Safe Sandboxed Local Voice Agent 구현

Local Ai Agent

Rudra Royalmech2026년 4월 12일6intermediate

Context

단순 질의응답에 그치는 기존 AI 어시스턴트의 한계를 극복하고자 함. 사용자의 의도를 파악하여 로컬 시스템에서 직접 파일 생성 및 코드 실행이 가능한 'Understand-Decide-Act' 파이프라인 구축을 목표로 함.

Technical Solution

  • Whisper 모델을 통한 오디오 데이터의 텍스트 변환으로 음성 입력 인터페이스 구현
  • LLM 기반의 Intent Detection을 적용하여 사용자 명령어를 실행 가능한 Task로 분류하는 구조 설계
  • Task Router를 통해 File Operation, Code Generation, Text Processing으로 로직을 분기하는 아키텍처 채택
  • 시스템 임의 수정 방지를 위해 모든 파일 입출력을 /output 디렉토리로 제한한 Sandboxed 설계 적용
  • UTF-8 인코딩 강제 적용을 통한 OS별 UnicodeEncodeError 런타임 예외 해결
  • Streamlit 프레임워크를 활용하여 인터랙티브한 제어 UI와 실행 결과 출력부 통합

- LLM 기반 자동화 도구 설계 시 시스템 치명적 경로 접근을 차단하는 전용 저장소(Safe Zone) 설정 여부 검토 - 로컬 환경의 다양한 OS 호환성을 위해 파일 I/O 시 UTF-8 인코딩 명시적 지정 - 하드웨어 리소스 제약 상황을 고려하여 Whisper 모델의 크기(base, small)를 유연하게 선택하는 전략 수립

원문 읽기