LeRobot이 LeRobotDataset v3.0과 Processors 파이프라인을 도입해 400GB 규모 로봇 학습 데이터셋 처리 및 멀티-GPU 분산 훈련 지원

LeRobot v0.4.0: Supercharging OSS Robot Learning

2025년 10월 24일8분intermediate

AI 요약

Context

기존 LeRobot 데이터셋 구조는 OXE(Open X Embodiment)와 Droid 같은 대규모 로봇 학습 데이터(400GB 이상)를 효율적으로 처리하지 못했으며, 산재된 JSON 메타데이터 관리와 비효율적인 비디오 스트리밍으로 인한 초기화 지연 문제가 있었다. 또한 원본 센서 데이터, 관절 위치, 언어 지시문을 모델이 기대하는 정규화된 배치 텐서 포맷으로 변환하는 과정이 복잡하고 로봇 하드웨어와의 통합이 어려웠다.

Technical Solution

LeRobotDataset v3.0 도입: 청크 단위 에피소드 포맷과 스트리밍 기능으로 400GB 규모 데이터셋 지원
메타데이터 통합: 산재된 JSON 파일을 통일된 Parquet 파일로 관리
Processors 파이프라인 도입: 정규화, 토큰화, GPU 데이터 이동을 모듈식 ProcessorStep으로 구성
PolicyProcessorPipeline과 RobotProcessorPipeline 분리: 모델용 배치 처리와 로봇용 실시간 개별 데이터 처리 구분
데이터셋 편집 도구 추가: lerobot-edit-dataset CLI로 에피소드 삭제, 분할, 기능 추가/제거, 병합 작업 자동화
LIBERO 벤치마크 통합: 130개 이상의 VLA 평가 태스크 지원
Meta-World 통합: 50개 이상의 다중-태스크 조작 시뮬레이션 지원, gymnasium ≥ 1.0.0 및 mujoco ≥ 3.0.0으로 결정론적 시딩 보장

Impact

아티클에서 정량적 성능 수치(레이턴시 감소율, 메모리 감소량 등)는 명시되지 않음.

Key Takeaway

대규모 로봇 학습 데이터셋 처리를 위해서는 청크 기반 저장과 통합 메타데이터 포맷이 필수이며, 모델 훈련과 하드웨어 제어라는 이질적인 요구사항을 모듈식 프로세서 파이프라인으로 분리하면 시스템 복잡도를 줄이고 재사용성을 높일 수 있다.

실천 포인트

로봇 학습 프레임워크를 구축하는 엔지니어는 PolicyProcessorPipeline과 RobotProcessorPipeline을 분리해서 설계하면, 동일한 정규화 로직을 배치 추론과 실시간 로봇 제어에 각각 최적화하면서 코드 중복을 제거할 수 있다. 또한 v

2.1 데이터셋을 v

3.0 청크 포맷으로 마이그레이션할 때 제공되는 변환 스크립트를 활용하면 기존 데이터셋과의 호환성을 유지하며 점진적 업그레이드가 가능하다.

태그

#Robotics #Dataset #Data Pipeline #imitation-learning

원문 읽기