피드로 돌아가기
`LeRobotDataset:v3.0`: Bringing large-scale datasets to `lerobot`
Hugging Face BlogHugging Face Blog
Backend

Hugging Face의 LeRobot팀이 레이보팅 데이터셋을 에피소드당 1파일 구조에서 다중 에피소드를 단일 파일로 압축하는 v3.0으로 전환해 파일시스템 제약 해제 및 스트리밍 모드 지원

`LeRobotDataset:v3.0`: Bringing large-scale datasets to `lerobot`

2025년 9월 16일8intermediate

Context

LeRobotDataset v2는 한 에피소드마다 별도의 파일을 생성하는 구조로 설계되어, 수백만 개의 에피소드로 확장할 때 파일시스템 한계에 도달했다.

Technical Solution

  • 다중 에피소드를 단일 파일로 압축: 여러 에피소드를 하나의 파일에 패킹하고 관계형 메타데이터를 사용해 개별 에피소드 수준의 정보 검색
  • 테이블 데이터 저장소 변경: 저차원의 고주파 데이터(조인트 상태, 액션)를 Apache Parquet 파일로 저장하고 메모리 매핑 또는 스트리밍 기반 접근 지원
  • 시각 데이터 구조 최적화: 카메라 프레임을 MP4 파일로 인코딩하고 같은 에피소드의 프레임을 동일 비디오에 그룹화하며, 같은 카메라의 비디오 그룹을 여러 서브디렉토리로 분산
  • 메타데이터 관계형 설계: JSON 파일로 데이터셋 구조를 기술하는 메타데이터 계층 도입으로 테이블 및 시각 데이터와의 관계형 연계
  • 스트리밍 모드 네이티브 지원: StreamingLeRobotDataset 인터페이스로 Hugging Face Hub에서 직접 다운로드 없이 데이터셋에 접근 및 처리 가능

Key Takeaway

데이터 저장소와 사용자 API를 분리하는 설계로 파일시스템 확장성을 확보하면서, 분산된 물리적 저장(Parquet, MP4, JSON)과 통합된 논리적 인터페이스(LeRobotDataset, StreamingLeRobotDataset)를 제공함으로써 수백만 에피소드 규모의 데이터셋 접근성을 확대할 수 있다.


로봇 학습 데이터를 다루는 엔지니어는 LeRobotDataset v

3.0의 StreamingLeRobotDataset 클래스를 사용해 전체 데이터를 로컬 디스크에 다운로드하지 않고도 Hugging Face Hub에서 직접 배치 단위로 데이터를 스트리밍하면, 수백만 에피소드 규모의 대규모 데이터셋에서 메모리 효율적으로 모델을 학습할 수 있다.

원문 읽기