HuggingFace LeRobot이 로봇 정책의 액션 예측과 실행을 분리하는 비동기 추론으로 작업 완료 시간 2배 단축

Asynchronous Robot Inference: Decoupling Action Prediction and Execution

2025년 7월 10일7분intermediate

AI 요약

Context

로봇 정책 모델들(ACT, OpenVLA, PI0, SmolVLA)은 단일 액션 대신 H개 타임스텝의 액션 청크를 출력한다. 기존 순차 추론에서는 로봇이 다음 액션 청크를 받을 때까지 유휴 상태에 있어 추론 레이턴시(~100ms)가 상호작용 시간을 지배하고, 작업 완료 시간이 증가하며 반응성이 떨어진다.

Technical Solution

액션 예측과 실행 분리: PolicyServer(가속기 하드웨어)와 RobotClient(로봇)를 별도 프로세스로 분리하여 동시 실행 가능하게 구성
gRPC 기반 통신: PolicyServer와 RobotClient 간 통신을 REST API 대신 gRPC로 변경하여 ~5배 성능 향상
액션 큐 관리: RobotClient가 현재 액션 청크를 실행하면서 다음 청크 계산을 대기하지 않고 수신 시 병합
관찰값 전송 주기 튜닝: 파라미터 g(관찰값 전송 빈도)를 0.5~0.7 범위로 설정하여 계산 비용과 레이턴시 간 트레이드오프 조정
재계획 능력 추가: 액션 청크 실행 중 새로운 관찰값 기반 재계획이 가능하여 실패 복구 시도 가능

Impact

작업 완료 시간 약 2배 단축(SmolVLA 기준)
동일 성공률 유지
추론 레이턴시 중 idle 기간 제거

Key Takeaway

액션 청크 예측 모델을 사용하는 로봇 시스템에서 예측과 실행을 비동기로 분리하면, 네트워크 지연과 모델 크기 증가에 강건하면서도 제어 루프를 두 배 이상 가속화할 수 있다. 이는 distributed inference 환경에서 특히 유효한 패턴이다.

실천 포인트

로봇 제어나 실시간 에이전트 시스템에서 LLM/비전 모델이 여러 스텝의 액션을 예측할 때, PolicyServer와 RobotClient를 gRPC로 분리하고 액션 큐를 활용하는 비동기 추론 패턴을 적용하면 추론 대기 시간을 제거하면서 작업 완료 시간을 50% 이상 단축할 수 있다.

태그

#Asynchronous Inference #Robotics #Action Chunking #Control Loop #gRPC

원문 읽기