피드로 돌아가기
Hugging Face BlogBackend
원문 읽기
LeRobot 프로젝트가 로봇 비전 데이터를 PNG 대신 비디오 코덱으로 인코딩해 데이터셋 크기를 평균 86% 감소 및 프레임 로딩 시간을 25~50% 단축
Scaling robotics datasets with video encoding
AI 요약
Context
로봇 데이터셋은 비전 정보를 개별 PNG 프레임으로 저장해 왔으나, 프레임 간 높은 중복성으로 인해 저장 공간이 비효율적이었고 로딩 시간도 매우 오래 걸렸다. 기존 형식(HDF5, Zarr, Pickle, TAR, ZIP)은 경량성, 공유 용이성, 시각화 기능이 부족해 데이터셋 확장에 장애물이 되고 있었다.
Technical Solution
- 비전 모달리티 저장 방식 변경: PNG 개별 프레임에서 현대 비디오 코덱(H.264, H.265, AV1)을 활용한 인코딩으로 전환
- 공간 압축 적용: JPEG/PNG와 동일한 원리로 프레임 내 유사 색상 영역을 압축해 중복성 제거
- 시간 압축 적용: 프레임 간 차이값(P-프레임, B-프레임)을 계산해 저장하고 키프레임(I-프레임)을 참조점으로 설정
- LeRobotDataset 포맷 정의: 경량하고 공유 가능하며 온라인 시각화 기능을 갖춘 표준화된 데이터셋 형식 제공
- 벤치마크 기반 코덱 선정: 크기, 디코딩 성능, 시각적 품질, 로드 시간을 기준으로 인코딩 파라미터 최적화
Impact
- 데이터셋 크기: 평균 14% 수준으로 축소(최적 케이스에서 0.2%까지 달성), 예시로 20GB 데이터가 1GB로 압축
- 단일 프레임 디코딩 시간: PNG 로딩과 비슷한 수준
- 연속 다중 프레임 디코딩 시간: PNG 프레임 로딩의 25~50% 수준으로 단축
Key Takeaway
로봇 데이터셋의 비효율성은 이미지 포맷의 선택 오류가 아니라 시간 축 중복성을 활용하지 못한 설계 문제였으며, 비디오 코덱이 제공하는 공간·시간 압축의 이중 구조를 활용하면 저장소와 I/O 성능을 동시에 개선할 수 있다.
실천 포인트
프레임 시퀀스를 저장하는 컴퓨터 비전 시스템에서 개별 이미지 인코딩 대신 현대 비디오 코덱(H.265, AV1)을 도입하면 저장 공간을 86% 이상 절감하면서도 디코딩 성능을 유지할 수 있으며, 특히 연속 프레임 접근 패턴에서 I/O 시간을 50% 이상 단축할 수 있다.