PLeiAs가 YouTube-Commons의 1.9M 영상을 43k 영상으로 필터링하고 Gemini 1.5로 주석 처리해 3.4k시간 분량의 FineVideo 데이터셋 구축

FineVideo: behind the scenes

2024년 9월 23일9분intermediate

AI 요약

Context

오픈 소스 비디오 AI 개발이 부족한 고품질 공개 데이터셋으로 인해 제한되고 있었다. 기존 YouTube-Commons의 1.9M 영상 중 대부분이 주석 처리되지 않았으며, 시각적 동적성과 음성 활동성이 낮은 콘텐츠가 많아 모델 학습에 적합하지 않았다.

Technical Solution

YouTube-Commons 영상 필터링: 영어 영상만 추출하고 메타데이터(코덱, 해상도, 설명, 태그 등) 수집해 1.9M 영상 리스트 생성
영상 다운로드 분산 처리: Video2Dataset(Slurm 지원) vs Cloud 배치 작업(Google Cloud, AWS) 두 방식 평가 후 Cloud 배치로 최종 결정, 1.8M 영상 다운로드
콘텐츠 동적성 필터링: 단어 밀도(0.5 words/second 이상), 시각 동적성 점수(0.4 이상)를 기준으로 정적인 영상 제거
Gemini 1.5를 통한 자동 주석 처리: 리치 설명, 내러티브 세부사항, 장면 분할, QA 쌍 생성
시간 축 정렬 및 이상 탐지: Gemini가 1fps로 처리한 프레임이 실제 25-29fps 영상과 정렬되도록 보정, 주석 품질 이상 탐지(0.5% 미만 제거)

실천 포인트

대규모 웹 크롤 데이터로부터 고품질 멀티모달 데이터셋을 구축할 때, 단어 밀도(텍스트 트랜스크립션 기반)와 시각적 특성 점수를 조합한 휴리스틱 필터링을 1차로 적용하면 LLM 주석 처리 비용을 75% 이상 절감할 수 있다. 또한 프레임 레이트 불일치로 인한 시간 축 정렬 오류는 분산 처리 시 발생하기 쉬우므로, 주석 생성 직후 미세 정렬(Fine Alignment) 단계를 별도로 두어 이상 탐지하면 하위 작업에서의 재작업 비용을 최소화할 수 있다.

태그

#Video-AI #Dataset #Data Pipeline #LLM-Annotation

원문 읽기