M1 Max 컴퓨터와 로컬 ML 모델로 669GB GoPro 영상을 인덱싱함

M1 Max 기반 Local ML 파이프라인으로 669GB 영상 67시간 만에 인덱싱

neo2026년 6월 15일7분intermediate

AI 요약

Context

대규모 GoPro 영상 아카이브 내 특정 장면을 찾기 위해 전체 영상을 수동으로 재시청해야 하는 병목 현상 발생. 클라우드 기반 처리 시 발생하는 데이터 전송 비용과 프라이버시 문제를 해결하기 위해 로컬 환경의 ML 추론 기반 인덱싱 시스템 필요.

Technical Solution

고해상도 원본의 과도한 연산량을 줄이기 위해 입력 프레임을 720p로 Downsampling 하여 처리 속도 최적화
1fps 기반의 Frame Analysis Pipeline을 통해 영상 내 57,537개의 개별 장면을 추출하고 분석
추출된 모든 장면 데이터를 Vector Database에 저장하여 시맨틱 검색이 가능한 RAG 아키텍처 구현
Ollama 기반 Local LLM 에이전트를 통해 전사 텍스트, 얼굴 인식, 시각적 정보의 복합 쿼리 처리
분석된 타임스탬프 데이터를 DaVinci Resolve API와 연동하여 검색 결과를 타임라인으로 즉시 전송하는 워크플로 설계
Apple Silicon의 Unified Memory 구조를 활용하여 시스템 메모리를 VRAM으로 사용함으로써 대용량 모델 추론 효율 극대화

실천 포인트

- Local ML 도입 시 GPU VRAM 용량보다 Memory Bandwidth 및 통합 메모리 구조 우선 검토 - 비전 모델 적용 전 입력 해상도를 낮춰 Accuracy와 Latency 간의 Trade-off 지점 설정 - 단순 검색을 넘어 외부 API(예: DaVinci Resolve)와 연동하여 End-to-End 워크플로 완성

태그

#Local-LLM #Unified Memory #RAG #Computer Vision #Vector Database

원문 읽기