피드로 돌아가기
Dev.toAI/ML
원문 읽기
개인이 OpenCV 윤곽선 감지와 로컬 VLM을 결합한 보안 카메라 파이프라인을 구축하여 하루 40회의 잘못된 알림을 5% 미만의 오탐율로 감소시켰다
Building a Real-Time Security Camera System with Local Vision LLMs
AI 요약
Context
기존 Lorex NVR 모션 감지는 나무 흔들림, 그림자 등에 하루 약 40회 잘못된 알림을 발생시켜 실용성이 없었다. 단순 객체 탐지 모델(YOLO)는 프레임 내 존재하는 객체를 알려줄 뿐 상황 맥락을 이해하지 못했다.
Technical Solution
- OpenCV 윤곽선 감지를 사전 필터로 활용하여 프레임 간 차이를 검출하고 변경 영역만 VLM에 전달한다
- VLM(qwen2.5vl:7b)에 ALERT/CLEAR 이진 분류를 요청하여 문맥 기반 판단을 수행한다
- 웹 UI 기반 제외/포함 존 에디터로 거짓 양성을 필터링하고 JSON 폴리곤으로 영역을 저장한다
- 부정 표현 감지 로직(negation detection)을 구현하여 "No people visible" 등을 CLEAR로 분류한다
- 음성 감지(faster-whisper)는 비주얼 확인 후 120초 윈도우 내에서만 활성화하는 게이트를 적용한다
Impact
VLM 호출량이 하루 약 50,000회이며 윤곽선 필터링으로 VLM 호출을 70% 이상 감소시켰다. 최종 오탐율은 5% 미만이며 월 비용은 $0이다.
Key Takeaway
VLM은 빠른 속도가 아닌 지능적 판단 능력이 필요하며, 빠른 사전 필터와 지능형 분류 모델의 조합이 로컬 환경에서 효율적이다
실천 포인트
로컬 보안 카메라 시스템에서 OpenCV 윤곽선 감지를 사전 필터로 적용 시 VLM 호출량을 70% 이상 절감하면서 오탐율을 5% 미만으로 낮출 수 있다