NXP가 VLA 모델을 임베디드 로봇 플랫폼에 배포하기 위해 비동기 추론 아키텍처와 데이터셋 기록 방법론을 적용해 ACT 모델의 추론 지연시간을 2.86초에서 0.32초로 단축

Bringing Robotics AI to Embedded Platforms: Dataset Recording, VLA Fine‑Tuning, and On‑Device Optimizations

2026년 3월 5일12분advanced

AI 요약

Context

Vision-Language-Action(VLA) 모델은 로봇 제어에 필수적이지만, 임베디드 플랫폼의 제한된 컴퓨팅 리소스, 메모리, 전력 제약으로 인해 배포가 어렵다. 동기식 제어 파이프라인에서는 VLA 추론 실행 중 로봇 팔이 대기하므로 진동 행동과 명령 지연이 발생하며, 이는 실시간 제어 요구사항을 충족하지 못한다.

Technical Solution

데이터셋 기록 표준화: 고정된 카메라 마운트, 조명 제어, 그리퍼 카메라 추가, 워크스페이스를 11개의 10×10cm 클러스터로 분할해 클러스터당 최소 10에피소드 기록
비동기 추론 아키텍처 도입: 추론 생성과 실행을 분리해 로봇이 대기하지 않도록 구성하되, 추론 지연시간이 액션 실행 시간보다 짧아야 함(≤0.2초)
ACT 정책 최적화: ONNX FP32 형식에서 최적화된 바이너리로 변환해 추론 지연시간 단축
SmolVLA 모델 적용: 크기가 작은 VLA 모델을 i.MX 95 SoC에서 실행하기 위해 배선 최적화 진행 중(현재 기준 6.15초)
데이터 품질 우선 전략: 캐리브레이션 백업, 그리퍼 카메라 강제 사용, 훈련 세트에서 검증 클러스터 제외, 실패 사례(20%)를 훈련 데이터에 포함

Impact

ACT 모델의 추론 지연시간: ONNX FP32 2.86초 → 최적화 버전 0.32초 (88.8% 단축)
ACT 모델의 테스트 세트 정확도: 100% (20에피소드)
ACT 모델의 검증 세트 정확도: 90% (10에피소드)
ACT 모델의 전체 정확도: 96% (30에피소드)
SmolVLA 모델의 추론 지연시간: ONNX FP32 29.1초 → 최적화 기준 6.15초 (78.9% 단축 예상)

Key Takeaway

로봇 AI를 임베디드 플랫폼에 배포할 때는 모델 압축만으로는 충분하지 않으며, 아키텍처 분해, 지연시간 인식 스케줄링, 하드웨어 정렬 실행을 포함한 시스템 엔지니어링이 필수이다. 특히 데이터셋 기록 단계에서 일관성(고정 카메라, 조명 제어, 그리퍼 카메라)을 우선시하고 비동기 추론을 통해 추론 지연시간을 액션 실행 시간 이내로 제약하면 실시간 로봇 제어를 실현할 수 있다.

실천 포인트

임베디드 로봇 플랫폼에 VLA 모델을 배포하는 엔지니어는 데이터셋 기록 시 고정 카메라 마운트, 조정 가능한 조명, 그리퍼 카메라 3개 설정으로 촬영하고 워크스페이스를 그리드 클러스터로 분할해 클러스터당 최소 10에피소드를 기록하며, 비동기 추론 파이프라인에서 추론 지연시간을 액션 실행 시간 이내(예: ≤

0.2초)로 제약하면 로봇 팔의 진동 행동을 제거하고 실시간 제어를 달성할 수 있다.

태그

#Vision-Language-Action #Real-time Inference #Robotics #Embedded Systems #ONNX

원문 읽기