Apollo-LMMs 팀이 TimeScope 벤치마크를 개발해 비디오 LMM의 장시간 이해 능력을 1분~8시간 범위에서 측정 및 평가

TimeScope: How Long Can Your Video Large Multimodal Model Go?

2025년 7월 23일9분intermediate

AI 요약

Context

Video Needle in a Haystack(VideoNIAH) 같은 기존 벤치마크는 정적 이미지를 영상에 삽입해 시각 검색만 측정하므로 실제 시간적 역학을 평가하지 못했습니다. 모델들이 10,000+ 프레임 처리를 주장하지만 실제 학습은 약 256 프레임에 국한되어 있어, Video-MME 같은 벤치마크에서 더 긴 입력에 대해 성능이 급격히 하락합니다. 현존하는 평가 방식의 간격으로 인해 모델의 장시간 비디오 이해 능력에 대한 과장된 주장이 만연한 상황입니다.

Technical Solution

비디오 "바늘" 구조 도입: 1분~8시간 길이의 기본 비디오에 5~10초 길이의 짧은 비디오 클립(바늘)을 무작위 위치에 삽입하여 성글게 샘플링이 아닌 전체 입력 처리 강제
3가지 작업 유형으로 다층적 평가: (1)Localized Retrieval - 특정 짧은 세그먼트에 대한 질문 응답 능력 측정, (2)Information Synthesis - 시간축의 여러 지점에서 정보를 수집하고 시간 순서대로 정렬 능력 평가(예: 분산된 텍스트 스니펫 식별), (3)Fine-Grained Temporal Perception - 단일 프레임 샘플링으로 불가능한 모션/시퀀스 분석 능력 검증
Hugging Face 플랫폼을 통한 공개 배포: lmms-eval 라이브러리(pip install git+https://github.com/EvolvingLMMs-Lab/lmms-eval.git)로 로컬 평가 가능하고 리더보드를 통해 모델 성능 비교
정량적 성능 곡선 생성: 비디오 길이 증가에 따른 정확도 하락 패턴을 시각화해 성능 절벽 지점 파악

Impact

벤치마크 평가 결과, Gemini 2.5-Pro만이 1시간 이상의 비디오에서 높은 정확도를 유지했습니다. Qwen 2.5-VL 3B/7B와 InternVL 2.5(2B, 4B, 8B) 모델들은 매개변수 크기와 관계없이 약 동일한 시점에서 성능 정체가 발생했습니다. Qwen 2.5-VL은 Information-Synthesis(OCR) 작업에서는 우수했으나 Fine-Grained Temporal Perception 작업에서는 하락했습니다.

Key Takeaway

매개변수 확대만으로는 실제 장시간 비디오 이해 능력이 보장되지 않으며, 시간적 추론, 정보 통합, 모션 인식의 3가지 측면을 균형있게 평가하는 벤치마크 설계가 비디오 멀티모달 모델 발전의 진정한 척도가 된다는 점입니다.

실천 포인트

비디오 기반 AI 시스템을 개발하는 팀에서 TimeScope 벤치마크를 적용하면, 단순히 프레임 수 증가 주장이 아닌 시간적 역학, 정보 합성, 모션 인식 능력의 실제 한계를 파악할 수 있으므로 모델 선택 및 학습 전략 수립에서 더 정확한 의사결정이 가능합니다.

태그

#Vision Language Models #Temporal-Understanding #Benchmark #Video-LMM

원문 읽기