피드로 돌아가기
Dev.toAI/ML
원문 읽기
단일 GPU로 33초 만에 15초 고품질 롱비디오를 생성하는 SVI 아키텍처
Long video generation blog: How We Shipped SVI in Production
AI 요약
Context
기존 비디오 생성 모델의 Train-Test Hypothesis Gap으로 인해 추론 시 에러가 누적되는 한계 존재. 14B 규모의 Base Model 전체 재학습 없이 효율적으로 비디오 길이를 확장해야 하는 기술적 제약 상황.
Technical Solution
- Finite Clip Stitching 구조를 통해 무한 길이 생성을 짧은 클립들의 연속적 결합으로 정의
- Anchor Latent와 Motion Latent를 Concatenate 하여 전역 일관성 및 단기 동작 연속성 확보
- Error-Recycling Fine-Tuning을 통해 추론 시 발생하는 Noise를 학습 데이터에 주입하여 에러 내성 강화
- Base Model 수정 없이 LoRA 기반의 경량 튜닝으로 VRAM 사용량을 일정하게 유지
- TurboWan 상에 SVI LoRA와 Style LoRA를 Superimpose 하여 속도와 일관성 및 스타일을 동시 확보
- Replay Memory 기반의 Closed-loop Error Supervision Cycle을 통한 모델의 자체 오류 교정 능력 학습
실천 포인트
- 추론 시 성능 저하가 발생한다면 학습 데이터에 실제 추론 환경의 Noise나 Error를 합성하여 주입했는지 검토 - 거대 모델의 기능 확장이 필요할 때 전체 파라미터 튜닝 대신 목적별 LoRA 레이어를 중첩(Superimpose)하는 구조 고려 - 시퀀스 데이터 생성 시 Global Anchor와 Local Context(Motion Latent)를 분리하여 일관성과 연속성을 동시에 제어하는 설계 적용