VLM과 NIM 기반의 RTVI 아키텍처를 통한 실시간 비디오 시맨틱 검색 구현

One Open Source Project a Day (No. 66): NVIDIA Video Search and Summarization - Building GPU-Accelerated Vision Agents

WonderLab2026년 5월 16일5분advanced

AI 요약

Context

전통적인 비디오 분석 시스템의 단순 객체 탐지(Object Detection) 방식으로는 복잡한 상황 묘사를 포함한 자연어 쿼리 처리에 한계 존재. 정해진 룰 기반의 필터링 시스템으로 인한 낮은 검색 유연성과 시맨틱 이해 부족 문제를 해결해야 하는 상황.

Technical Solution

RTVI(Real-Time Video Intelligence) 구조 도입을 통한 인덱싱 평면과 추론 평면의 완전 분리 설계
Vision Encoder를 활용해 비디오 프레임을 벡터로 변환 후 고성능 Vector Index에 저장하는 시맨틱 인덱싱 구현
LLM(Nemotron-Nano-9B)을 컨트롤러로 배치하여 사용자 의도를 분석하고 관련 비디오 세그먼트를 추출하는 오케스트레이션 로직 적용
NVIDIA NIM 마이크로서비스 기반의 VLM(Cosmos-Reason2-8B)을 통한 고밀도 시각적 추론 및 질의응답 수행
MCP(Model Context Protocol) 통합으로 외부 전문 분석 도구를 동적으로 호출하여 시각적 추정치 이상의 정밀 데이터 확보
RTSP 스트림의 저지연 Embedding 추출을 위한 GPU 가속 파이프라인 최적화

실천 포인트

- 비디오 데이터 처리 시 단순 탐지 모델과 VLM의 역할을 분리하여 비용과 속도를 최적화했는지 검토 - 정형 데이터와 비정형 영상 데이터를 결합하기 위한 Vector Database 도입 및 인덱싱 전략 수립 - LLM이 직접 추론하는 대신 전문 툴을 호출하는 Tool Calling 구조를 통해 할루시네이션 방지 및 정확도 향상 시도 - 실시간 스트리밍 데이터의 경우 인덱싱과 추론 단계를 비동기로 처리하는 아키텍처 설계 고려

태그

#RTVI #VLM #MCP #NVIDIA NIM #Vector Database

원문 읽기