HuggingFace가 450M 파라미터 Vision-Language-Action 모델을 공개 데이터셋으로 학습해 대규모 모델 대비 동등 이상의 성능을 30% 빠른 추론 시간으로 달성

SmolVLA: Efficient Vision-Language-Action Model trained on Lerobot Community Data

2025년 6월 3일8분intermediate

AI 요약

Context

로봇공학 분야에서 최근 진전이 더딘 이유는 고품질의 다양한 데이터 부족과 폐쇄적인 모델이 주요 원인입니다. 기존 Vision-Language-Action(VLA) 모델들은 대규모 비공개 데이터셋으로 학습되며 고가의 하드웨어와 광범위한 엔지니어링 리소스를 필수로 요구합니다.

Technical Solution

Vision-Language-Action 아키텍처 도입: RGB 이미지 시퀀스, 로봇의 감각-운동 상태, 자연어 명령을 입력받아 연속적인 로봇 행동 생성
비전 모델의 절반 계층 스킵: 추론 속도 및 모델 크기 감소
Self-attention과 Cross-attention 블록 인터리빙: 컨텍스트 특성 인코딩 최적화
Flow-matching 디코더 결합: 연속 행동 시퀀스 생성을 위한 Transformer 기반 아키텍처
비동기 추론 스택 도입: 이미지 이해 처리와 행동 실행을 분리하여 동적 환경에서 빠른 응답 가능
공개 데이터셋만 활용: Lerobot 커뮤니티 데이터셋으로 30,000 미만의 학습 에피소드로 사전학습 및 작업별 후학습

Impact

비동기 추론으로 작업 완료 시간 30% 단축: 9.7초 대비 13.75초 대비 비율
고정 시간 내 완료 작업량 2배 증가: 19개 대비 9개 큐브(스택킹 작업 기준)
시뮬레이션 및 실제 환경에서 대규모 모델 능력 이상 달성: LIBERO, Meta-World, SO100, SO101 벤치마크
동일한 작업 성공률 유지: 약 78% (비동기 및 동기 모드 모두)

Key Takeaway

로보틱스 모델은 매개변수 크기보다 아키텍처 설계(비전 모델 레이어 스킵, attention 인터리빙, flow-matching 디코더)와 훈련 데이터의 품질로 성능이 결정됨을 보여줍니다. 비동기 추론 패턴은 로봇의 지각 처리와 행동 실행을 분리하여 동적 환경에서 실시간 응답성을 크게 향상시킵니다.

실천 포인트

로봇 제어 시스템을 구축하는 팀에서는 대규모 모델 대신 SmolVLA의 architecture optimization(비전 모델 계층 스킵, attention 인터리빙) 기법을 자신의 모델에 적용하면, 동일 성능에서 추론 지연을 30% 줄이고 처리량을 2배로 증대할 수 있습니다. 또한 비동기 추론 스택 도입으로 지각 처리와 행동 실행을 분리하면 동적 환경에서 외부 교란에 대한 복구 능력을 개선할 수 있습니다.

태그

#Open Source #Transformer #Vision-Language-Action #Efficient-ML #Robotics

원문 읽기