단일 GPU로 33초 만에 15초 고품질 롱비디오를 생성하는 SVI 아키텍처

Long video generation blog: How We Shipped SVI in Production

Atlas Cloud2026년 5월 7일6분advanced

AI 요약

Context

기존 비디오 생성 모델의 Train-Test Hypothesis Gap으로 인해 추론 시 에러가 누적되는 한계 존재. 14B 규모의 Base Model 전체 재학습 없이 효율적으로 비디오 길이를 확장해야 하는 기술적 제약 상황.

Technical Solution

Finite Clip Stitching 구조를 통해 무한 길이 생성을 짧은 클립들의 연속적 결합으로 정의
Anchor Latent와 Motion Latent를 Concatenate 하여 전역 일관성 및 단기 동작 연속성 확보
Error-Recycling Fine-Tuning을 통해 추론 시 발생하는 Noise를 학습 데이터에 주입하여 에러 내성 강화
Base Model 수정 없이 LoRA 기반의 경량 튜닝으로 VRAM 사용량을 일정하게 유지
TurboWan 상에 SVI LoRA와 Style LoRA를 Superimpose 하여 속도와 일관성 및 스타일을 동시 확보
Replay Memory 기반의 Closed-loop Error Supervision Cycle을 통한 모델의 자체 오류 교정 능력 학습

실천 포인트

- 추론 시 성능 저하가 발생한다면 학습 데이터에 실제 추론 환경의 Noise나 Error를 합성하여 주입했는지 검토 - 거대 모델의 기능 확장이 필요할 때 전체 파라미터 튜닝 대신 목적별 LoRA 레이어를 중첩(Superimpose)하는 구조 고려 - 시퀀스 데이터 생성 시 Global Anchor와 Local Context(Motion Latent)를 분리하여 일관성과 연속성을 동시에 제어하는 설계 적용

태그

#Error-Recycling #SVI #TurboWan #Latent Space #LoRA

원문 읽기