CinePile 팀이 적대적 데이터셋 정제(adversarial dataset refinement) 방식으로 장문 비디오 QA 데이터셋을 재구성해 CinePile 2.0 출시

CinePile 2.0 - making stronger datasets with adversarial refinement

2024년 10월 23일10분intermediate

AI 요약

Context

원본 CinePile(2024년 5월)은 약 300,000개 학습 샘플과 5,000개 테스트 샘플을 보유한 장문 비디오 QA 데이터셋이었으나, 데이터셋 품질 검증 과정에서 일부 질문이 자명하거나 기본 개념만 요구하는 문제가 발견되었다.

Technical Solution

질문 생성 파이프라인 자동화: 기존 MovieQA와 TVQA 데이터셋을 WhereIsAI/UAE-Large-V1 텍스트 유사성 모델로 클러스터링해 GPT-4가 10개 예시로부터 질문 템플릿 생성
템플릿 선택 자동화: Gemini 1.0 Pro를 사용해 각 장면에 적합한 템플릿을 자동 선택해 비디오당 약 32개 질문 생성
프롬프트 최적화: 시간 스탬프 및 시각 설명을 포함하고 모델에 답변 근거 제시 요청으로 환각(hallucination) 방지 및 MCQ 분산지 품질 개선
적대적 정제 방식 도입: 구체적 구현 방법은 공개 저장소에서 확인 가능
모델 평가 확대: 기존 평가 모델 외 16개의 신규 Video-LLM을 수정된 테스트셋에서 평가하고 리더보드 출시

Impact

Gemini 1.5 Pro가 상용 VLM 중 최고 성능 달성, Gemini 1.5 Flash는 58.75% 전체 정확도 달성, GPT 기반 모델은 "내러티브 및 플롯 분석" 카테고리에서 강력한 성능 표시, 오픈소스 Video-LLM 커뮤니티가 첫 번째와 현재 버전 사이에서 상당한 진전 달성

Key Takeaway

장문 비디오 이해 벤치마크는 현재 모델들이 시각적 내러티브 및 스토리 요소 이해에서 인간 능력보다 훨씬 뒤떨어져 있음을 명확히 보여주며, 적대적 데이터셋 정제 방식은 기존 데이터셋 강화 및 향후 데이터셋 생성 파이프라인의 핵심 컴포넌트로 활용될 수 있다.

실천 포인트

대규모 언어 모델 기반 데이터셋 자동 생성을 수행하는 팀에서 WhereIsAI/UAE-Large-V1 같은 텍스트 유사성 모델로 사전에 템플릿을 클러스터링하고, GPT-4와 Gemini 같은 멀티모달 모델을 활용해 템플릿 선택 및 질문 생성을 단계적으로 자동화하면 환각 방지와 동시에 템플릿 적절성을 확보할 수 있다.

태그

#Video-QA #Benchmark #Dataset #LLM

원문 읽기