피드로 돌아가기
Hugging Face BlogAI/ML
원문 읽기
Overworld가 frame-causal rectified flow transformer를 10,000시간 게임 영상으로 학습해 제로 레이턴시 실시간 인터랙티브 비디오 생성 모델 Waypoint-1 개발
Introducing Waypoint-1: Real-time interactive video diffusion from Overworld
AI 요약
Context
기존 세계 생성 모델들은 사전학습된 비디오 모델을 단순화된 제어 입력으로 미세조정하는 방식을 사용했고, 카메라 회전을 매 몇 프레임마다만 입력할 수 있으며 심각한 레이턴시 문제를 가지고 있었다.
Technical Solution
- Frame-causal rectified flow transformer 아키텍처 도입: 10,000시간의 다양한 비디오 게임 영상과 제어 입력, 텍스트 캡션으로 처음부터 학습하여 인터랙티브 경험에 최적화
- Diffusion forcing을 사전학습 기법으로 적용: 과거 프레임이 주어졌을 때 미래 프레임을 노이즈 제거하도록 학습하며, causal attention mask로 현재 및 과거 프레임만 어텐션 가능하도록 제약
- Self-forcing 포스트훈련 기법 도입: 추론 시 프레임별 자동회귀 롤아웃과 일치하는 체제에서 모델을 훈련하여 오류 누적 및 노이즈 문제 해결
- WorldEngine 추론 라이브러리 개발: 컨텍스트 프레임, 키보드/마우스 입력, 텍스트를 수신하고 실시간 스트리밍용 이미지 프레임을 출력하는 Python 기반 런타임 루프
- 4가지 추론 최적화 적용: AdaLN feature caching으로 조건 프로젝션 재계산 제거, Static Rolling KV Cache + Flex Attention Matmul fusion, torch.compile(fullgraph=True, mode="max-autotune", dynamic=False) 사용
Impact
Waypoint-1-Small(2.3B 파라미터) 모델이 RTX 5090에서 초당 약 30,000 토큰 패스(단일 노이즈 제거 패스, 프레임당 256 토큰) 처리, 4 스텝에서 30 FPS 또는 2 스텝에서 60 FPS 달성
Key Takeaway
인터랙티브 애플리케이션에 생성 모델을 적용할 때 사전학습 단계부터 제어 입력을 핵심 설계 요소로 포함하고, 추론 패턴 불일치 문제를 해결하기 위해 목표 동작과 일치하는 포스트훈련 기법을 도입하면 제로 레이턴시 실시간 성능 달성이 가능하다.
실천 포인트
생성 모델 기반의 실시간 인터랙티브 시스템을 개발하는 팀이라면, diffusion forcing으로 사전학습하되 추론 시 프레임별 자동회귀 방식과의 불일치를 self-forcing 포스트훈련으로 해결하고, AdaLN caching과 KV cache fusion 같은 추론 최적화를 조합하면 RTX 5090급 소비자 하드웨어에서도 30 FPS 이상의 제로 레이턴시 성능을 달성할 수 있다.