Raspberry Pi 기반 Offline Voice Assistant: 3-Tier Intent Pipeline을 통한 응답성 확보

How I Built an Offline Voice Assistant for Smart Home on Raspberry Pi — and Why I Ditched the Cloud

Ivan Parasochenko2026년 4월 15일4분intermediate

AI 요약

Context

Cloud 기반 voice assistant의 프라이버시 침해 및 특정 언어(Ukrainian) 지원 미비 문제 해결 필요. Raspberry Pi 4의 제한된 RAM 및 CPU 자원으로 인한 LLM의 높은 Latency가 실시간 인터페이스 구현의 핵심 병목으로 작용.

Technical Solution

Real-time 응답성 확보를 위해 Whisper 대신 300-500ms의 추론 속도를 가진 Vosk STT 채택
LLM의 높은 Latency 해결을 위한 3-Tier Intent Recognition 파이프라인 설계
Tier 0(Fuzzy Cache)를 통한 기경험 명령의 즉각적 처리(~5ms)
Tier 1(all-MiniLM-L6-v2 via ONNX)을 활용한 Vector Similarity 기반의 Intent 분류(p50 ~155ms)
Tier 2(LLM Fallback)를 통해 임베딩 신뢰도가 낮은 복잡한 요청만 선별 처리
다국어 확장을 위해 내부 처리를 English로 단일화하고 STT/TTS 경계에서만 Translation을 수행하는 추상화 계층 도입

실천 포인트

1. 실시간성 요구 서비스 설계 시 고성능 모델 앞단에 경량 Embedding Classifier 배치 검토

2. 다국어 지원 시스템 설계 시 내부 비즈니스 로직을 단일 공통 언어로 표준화하여 유지보수 비용 절감

3. 임베디드 환경의 RAM 제약을 해결하기 위해 ONNX 양자화 및 WPE WebKit 같은 경량 런타임 고려

태그

#Edge AI #STT #ONNX #Tiered Architecture #Intent Recognition

원문 읽기