Hugging Face Diffusers 팀이 오픈소스 비디오 생성 모델을 라이브러리에 통합하여 커뮤니티의 접근성 확대 및 LTX-Video, Mochi-1, CogVideoX 등 5개 이상의 모델 지원

State of open video generation models in Diffusers

2025년 1월 27일9분intermediate

AI 요약

Context

비디오 생성 모델은 높은 계산 비용, 제한된 일반화 능력, 긴 생성 지연시간으로 인해 커뮤니티 수준의 하드웨어에서 접근 불가능한 상태였습니다. OpenAI Sora 데모 이후 Google Veo2, Runway Gen3 Alpha 같은 클로즈드 모델은 급속히 발전했으나, 오픈소스 비디오 생성 모델의 실제 활용은 기술적 장벽이 높았습니다.

Technical Solution

디노이징 네트워크가 3D 비디오 토큰(공간-시간 정보 포함)을 처리하는 아키텍처 채택: DiT 기반 + PixArt 디자인 요소 적용
텍스트 인코더를 T5 (또는 CLIP-L + LLaMa 3)로 표준화하여 일관된 프롬프트 처리 구현
비디오 인코더-디코더에 공간-시간 압축 기법 도입 및 프레임별 디코딩 옵션 추가로 메모리 사용량 감소
Diffusers 라이브러리에 텍스트→비디오, 이미지+텍스트→비디오, 비디오+텍스트→비디오 3가지 생성 파이프라인 구현
LTXPipeline, CogVideoX, Mochi-1, Hunyuan, Allegro 등 5개 이상의 오픈소스 모델을 Diffusers에 통합
메모리 최적화 및 양자화 기법을 적용한 추론 최적화 제공
finetrainers 라이브러리 확장 계획: Control LoRAs, Distillation Algorithms, ControlNets, Adapters 추가 예정

Key Takeaway

비디오 생성의 핵심 난제는 시간에 따른 움직임 일관성, 여러 주체의 동시 조화, 프롬프트 이해 능력을 동시에 만족시키는 데 있으며, 이를 해결하기 위해 표준화된 컴포넌트(T5 텍스트 인코더, DiT 아키텍처, 3D 토큰 처리)와 메모리 최적화 기법의 조합이 필수입니다.

실천 포인트

비디오 생성 모델을 실제 프로젝트에 통합해야 하는 엔지니어는 Diffusers 라이브러리를 사용하여 4~5줄의 파이썬 코드로 LTX-Video나 CogVideoX 같은 모델을 로드할 수 있으며, 프레임별 디코딩 옵션과 양자화를 조합하면 메모리 제약 있는 환경에서도 생성 지연시간과 품질 사이의 트레이드오프를 조절할 수 있습니다.

태그

#Model optimization #Open Source #Video Generation #Diffusion Models #Text-to-Video

원문 읽기