피드로 돌아가기
Dev.toAI/ML
원문 읽기
VRAM 확장을 통한 Local AI 추론 최적화로 응답 속도 1.6초 달성
I Made Local AI Faster Than the Cloud — A Complete Home Automation Voice Control Journey
AI 요약
Context
Cloud API 기반 음성 제어 시스템의 높은 응답 시간 변동성(2.7s~9.2s)과 데이터 프라이버시 노출 문제 해결 필요. Hungarian이라는 소수 언어 처리와 실시간 Home Automation 제어를 위한 저지연 Local Inference 구조 설계가 핵심 과제임.
Technical Solution
- Orchestration Layer 분리를 위해 Celeron N3150 기반 Home Server(n8n, Domoticz, MQTT)와 AI Inference 전용 Desktop PC로 이원화한 하이브리드 구조 설계
- Local STT 구현을 위해 faster-whisper-small 모델을 채택하고, LLM으로 Qwen2.5:7b(Q4_K_M Quantization)를 사용하여 헝가리어 문맥 해석 및 JSON 페이로드 생성 자동화
- VRAM 4GB 환경에서 발생한 LLM 레이어 분산 처리(VRAM/RAM Hybrid mode) 및 STT 모델의 CPU 강제 구동으로 인한 병목 지점 식별
- RTX 4060 Ti(16GB VRAM) 도입을 통해 STT와 LLM 모델 전체를 VRAM에 상주시켜 데이터 전송 오버헤드 제거 및 추론 속도 최적화
- Webhook -> n8n -> AI Inference -> MQTT Broker -> Domoticz로 이어지는 Event-Driven 파이프라인 구축을 통한 제어 흐름 단순화
실천 포인트
1. Local LLM 도입 시 모델 파라미터 크기뿐 아니라 Quantization 후의 실제 VRAM 점유량과 STT 등 병렬 모델의 메모리 요구량을 합산하여 산정할 것
2. 모델 레이어가 VRAM-RAM에 분산 배치될 경우 발생하는 성능 저하를 벤치마킹하여 하드웨어 업그레이드 필요성을 데이터로 검증할 것
3. 실시간 제어 시스템 설계 시 API Latency의 변동성(Variance)을 최소화하기 위해 Edge Inference 구조 검토