Hugging Face가 Text-to-Video 모델의 아키텍처 진화와 Diffusion 기반 접근법을 통해 텍스트 설명으로부터 시간적·공간적으로 일관성 있는 비디오 생성 기술의 현황 정리

A Dive into Text-to-Video Models

2023년 5월 8일12분intermediate

AI 요약

Context

Text-to-Video 생성은 Text-to-Image와 달리 프레임 간 시간적·공간적 일관성 유지로 인해 장기 의존성 문제를 야기한다. 기존 초기 모델들은 저해상도, 단순한 모션만 생성 가능했으며 긴 비디오 생성 시 계산 비용이 지수적으로 증가했다.

Technical Solution

GAN/VAE 기반 프레임워크에서 Transformer 기반 아키텍처로 전환: DALL-E의 성공에 영감을 받아 Phenaki, Make-A-Video, NUWA, VideoGPT, CogVideo 등에서 Transformer 채택
Diffusion 모델 도입: Stable Diffusion과 Imagen의 확산 모델 기법을 Text-to-Video에 적용하여 생성 품질 향상
VQGAN과 시간 인식 Transformer 결합: TATS에서 하이브리드 접근법으로 이미지 생성과 순차적 프레임 생성 분리
스토리라인 기반 장문 비디오 생성: Phenaki의 경우 단일 프롬프트 대신 프롬프트 시퀀스로 조건화하여 임의의 길이 비디오 생성 가능하게 함
Diffusers 파이프라인 통합: ModelScope 기반 Text-to-Video 모델을 DPMSolverMultistepScheduler와 함께 제공하고 model_cpu_offload를 통한 메모리 최적화

Key Takeaway

Text-to-Video 모델은 Text-to-Image의 성공한 아키텍처 패러다임(Transformer, Diffusion)을 채택하되, 시간적 일관성 문제를 프롬프트 시퀀싱과 하이브리드 모듈 구성으로 해결하는 것이 현재의 주요 기술 방향이다.

실천 포인트

생성 AI 모델 통합이 필요한 엔지니어 팀에서 Hugging Face Diffusers 라이브러리의 DiffusionPipeline과 DPMSolverMultistepScheduler를 조합하면 Text-to-Video 모델을 GPU 메모리 제약 하에서 빠르게 프로토타입할 수 있다. 또한 단순 텍스트 프롬프트 대신 시간 순서대로 조건화된 프롬프트 시퀀스를 사용하면 일관성 있는 장문 비디오 생성 품질을 개선할 수 있다.

태그

#Generative AI #Transformer Architecture #Video Generation #Diffusion Models #Text-to-Video

원문 읽기