Physical Intelligence가 π0와 π0-FAST 비전-언어-액션 모델을 개발해 7개 로봇 플랫폼의 68개 작업에서 0-shot 성능 달성

π0 and π0-FAST: Vision-Language-Action Models for General Robot Control

2025년 2월 4일10분intermediate

AI 요약

Context

기존 로봇 정책(Robot Policy)은 특정 작업이나 로봇 형태에만 특화되어 있어 다양한 환경과 로봇 플랫폼에 대한 일반화 능력이 부족했다. 또한 Vision-Language Models(VLMs)는 물리 세계와의 상호작용을 학습하지 못해 실제 로봇 제어에 직접 적용할 수 없었다.

Technical Solution

Vision-Language-Action(VLA) 모델 아키텍처 도입: VLM의 다중모달 표현에 액션과 관측 상태 토큰을 추가해 로봇 제어 능력 확보
Flow Matching 기반 액션 생성: 무작위 노이즈에서 시작해 점진적으로 모터 액션 시퀀스로 수렴하는 방식으로 50Hz 실시간 궤적 생성
7개 로봇 플랫폼과 68개 작업의 다중 데이터셋으로 대규모 사전학습 수행: 단일 팔 로봇, 쌍팔 로봇, 모바일 매니퓨레이터 등 서로 다른 로봇 모형 간 학습
FAST 토크나이저 개발: 액션 시퀀스를 [-1,1] 범위로 정규화된 토큰으로 효율적으로 인코딩하고 Hugging Face Transformers에 통합
π0-FAST 모델: 기본 π0 모델에 FAST 토크나이저를 적용한 경량화 버전으로 액션 표현 압축

Key Takeaway

로봇 파운데이션 모델 개발에서는 단순히 대규모 데이터만으로는 부족하며, 크로스-엠보디먼트(cross-embodiment) 학습을 통해 서로 다른 로봇 형태의 공유 표현을 학습하고, Flow Matching 같은 생성 모델 기법을 액션 공간에 적용하는 것이 일반화와 실시간 제어 성능을 동시에 달성하는 핵심이다.

실천 포인트

로봇 제어 모델을 개발하는 엔지니어링 팀은 기존 VLM 대신 액션 및 관측 토큰을 포함한 VLA 아키텍처를 채택하고, FAST 토크나이저로 액션 시퀀스를 정규화해 토큰화하면 여러 로봇 플랫폼에서 제로-샷 작업 수행 능력을 확보할 수 있다. LeRobot 레포지토리의 π0 모델을 자신의 환경에 맞게 미세조정(fine-tuning)하면 의류 접기, 식료품 포장, 상자 조립 같은 복잡한 실제 작업에 즉시 적용 가능하다.

태그

#Vision-Language-Action #Robot Foundation Models #Cross-Embodiment-Learning #Flow Matching #FAST-Tokenization

원문 읽기