피드로 돌아가기
VLAs are dead, long live World Action Models - a summary of Jim Fan's Robotics End Game talk
Dev.toDev.to
AI/ML

VLA에서 WAM으로의 전환을 통한 물리 엔진 없는 로봇 제어 구현

VLAs are dead, long live World Action Models - a summary of Jim Fan's Robotics End Game talk

YK Sugi2026년 5월 13일8advanced

Context

언어 모델 기반의 VLA 구조는 언어 처리 비중이 과도하여 물리 법칙 및 동적 동작 구현에 한계 노출. Teleoperation 중심의 데이터 수집 방식은 물리적 시간 제약으로 인한 낮은 확장성 문제를 야기함.

Technical Solution

  • Video World Model 기반의 WAM 구조로 전환하여 물리 법칙을 픽셀 예측으로 학습
  • Dream Zero 모델을 통한 미래 비디오 프레임과 로봇 액션의 Joint Decoding 구현
  • UMI 및 Egocentric Video 기반 데이터 플라이휠 구축으로 Teleoperation 의존도 제거
  • Neural Simulators를 통한 Compute-Environment-Data 통합 루프 설계
  • LLM의 Pre-training $\rightarrow$ SFT $\rightarrow$ RL 파이프라인을 로봇 제어에 이식한 아키텍처 적용

- 고차원 연속 신호 제어 시 텍스트 기반 임베딩보다 비디오 기반 World Model 검토 - 데이터 수집 단계에서 Teleoperation 대신 웨어러블 장비 및 1인칭 시점 영상 활용 방안 설계 - 물리 엔진의 명시적 코딩 대신 대규모 데이터 기반의 Emergent Physics 학습 가능성 타진

원문 읽기