피드로 돌아가기
GeekNewsAI/ML
원문 읽기
2021년 MacBook에서 Gemma4-31B로 1년치 영상을 로컬 색인하기(50GB 스왑)
Gemma4-31B 기반 로컬 비디오 인덱싱 파이프라인 구축 및 데이터 분리 설계
AI 요약
Context
대규모 영상 데이터의 시각적 분석과 메타데이터 추출을 위해 LLM을 활용한 로컬 색인 시스템 필요성 대두. 기존 LLM의 얼굴 인식 및 위치 추적 능력 한계로 인해 정밀한 식별 및 데이터 무결성 유지에 어려움 존재.
Technical Solution
- 도메인별 특성에 따른 처리 경로 분리를 통해 LLM의 환각 방지 및 정확도 확보
- 얼굴 식별은 Insightface의 RetinaFace로 감지 후 ArcFace 임베딩을 통해 결정론적 비교 구조 설계
- 위치 정보는 exiftool을 이용한 EXIF GPS 추출 및 Nominatim/OpenStreetMap 역지오코딩 기반의 하드 메타데이터 체계 구축
- LLM(Gemma 4 31B)은 장면 설명, 분위기 분석, 샷 유형 정의 등 추상적 의미 해석 작업에만 한정하여 사용
- 이식성 확보를 위해 벡터 DB 대신 일반 Markdown(.description.md) 사이드카 파일 형식을 채택한 텍스트 기반 지식 저장 구조 설계
- 비디오 분석 효율화를 위해 클립당 5프레임 추출 및 자막 데이터를 결합한 단일 요청 최적화 수행
실천 포인트
1. LLM의 약점(정밀 식별, 수치 계산)을 보완하기 위해 특화된 전용 라이브러리(Insightface, exiftool)와 파이프라인 분리 검토
2. 영속성 및 이식성을 위해 특정 DB 의존도를 낮춘 Plain Text 기반의 사이드카 파일 저장 방식 고려
3. 토큰 비용 및 처리 속도 최적화를 위해 프레임 샘플링 전략과 텍스트 컨텍스트 결합 방식 설계