Hugging Face가 3단계 파이프라인(획득→전처리→처리)으로 비디오 생성 모델 학습용 데이터셋 구축 도구 개발

Build awesome datasets for video generation

2025년 2월 12일8분intermediate

AI 요약

Context

이미지 생성 데이터셋 도구(img2dataset)는 확립되었지만, 비디오 생성 모델을 위한 데이터셋 구축 도구는 부족한 상태였다. 비디오 생성 모델의 품질은 학습 데이터에 의존하므로 동작(Motion), 미학(Aesthetics), 워터마크 유무, NSFW 콘텐츠 같은 필터링 기준이 중요했다.

Technical Solution

Stage 1 (획득): yt-dlp를 사용한 비디오 다운로드 및 "Video to Scenes" 스크립트로 장시간 비디오를 단편으로 분할
Stage 2 (전처리/필터링): OpenCV를 활용해 추출된 전체 프레임에서 동작 점수(motion score) 예측
Stage 3 (처리): Florence-2 (microsoft/Florence-2-large) 모델로 추출된 프레임에 대해 , <DETAILED_CAPTION>, <DENSE_REGION_CAPTION>, <OCR_WITH_REGION> 태스크 수행
비디오 전체 캡셔닝 옵션: Qwen2.5 같은 모델로 개별 프레임 대신 전체 비디오 캡셔닝 지원
필터링 전략: pwatermark < 0.1, aesthetic > 5.5 같은 임계값 설정으로 고품질 데이터 선별

Impact

finetrainers/crush-smol-v0 데이터셋에서 1,493개 비디오 중 47개만 남음(pwatermark < 0.1, aesthetic > 5.5 적용).

Key Takeaway

비디오 필터링에서 모든 프레임이 임계값 이하여야 한다는 조건보다 평균값 또는 첫 프레임 기준이 더 효과적이며, pwatermark는 평균 임계값 0.2~0.3, aesthetic은 최소 임계값 4.25~4.5가 더 합리적인 필터링 전략이다.

실천 포인트

비디오 생성 모델 파인튜닝을 위한 데이터셋을 구축하는 팀은 Stage 1에서 yt-dlp와 장면 분할 스크립트로 원본 수집, Stage 2에서 OpenCV 기반 동작 점수, Stage 3에서 Florence-2 다중 태스크 캡셔닝을 조합하면, 텍스트 오버레이/워터마크 감지와 미학 점수 필터링으로 고품질 데이터셋을 확보할 수 있다.

태그

#Florence-2 #video_generation #Fine-Tuning #data_pipeline #dataset_curation

원문 읽기