단일 AMD MI300X 기반의 고밀도 시네마틱 릴 생성 파이프라인 구축

Building an Open-Source Text-to-30s-Cinematic-Reel Pipeline on a Single AMD MI300X

BladeDev2026년 5월 12일3분advanced

AI 요약

Context

기존 시네마틱 비디오 생성 스택은 다수의 모델을 필요로 하여 소비자용 하드웨어 기준 4~5대의 장비가 필요한 분산 구조임. 특히 캐릭터 정체성 유지를 위한 개별 LoRA 학습 과정에서 막대한 시간과 연산 자원이 소모되는 병목 지점이 존재함.

192GB HBM3 VRAM을 활용하여 35B MoE, Diffusion, I2V MoE 등 서로 다른 5개 아키텍처를 순차적으로 로드하는 단일 GPU 파이프라인 설계
Qwen3.5-35B 체크포인트를 시스템 프롬프트 변경만으로 Director와 Vision Critic 역할로 재사용하여 70GB VRAM 절감
Vision Critic의 10종 실패 레이블 기반 피드백 루프를 통한 조건부 재렌더링 전략으로 출력 품질의 일관성 확보
FLUX.2 [klein]의 Reference Editing 기법을 도입하여 별도의 LoRA 학습 없이 마스터 포트레이트 기반의 캐릭터 정체성 유지 구현
gc.collect() 및 torch.cuda.empty_cache()와 서브프로세스 실행 방식을 통한 단계별 메모리 완전 해제로 OOM 방지
ParaAttention, FBCache 및 Selective torch.compile 적용을 통한 추론 속도 최적화

실천 포인트

1. VRAM 제약 상황에서 동일 모델의 가중치를 공유하는 다중 역할 설계 검토

2. 생성물 품질 확보를 위해 단순 렌더링이 아닌 정량적 평가 기반의 Retry Loop 구조 도입

3. Fine-tuning 대신 Reference Conditioning 기법을 통한 제로샷 정체성 유지 가능성 확인

4. torch.compile 적용 시 Full-graph 에러 가능성을 고려한 Selective Compilation 전략 수립

태그