LeRobot 프로젝트가 로봇 비전 데이터를 PNG 대신 비디오 코덱으로 인코딩해 데이터셋 크기를 평균 86% 감소 및 프레임 로딩 시간을 25~50% 단축

Scaling robotics datasets with video encoding

2024년 8월 27일12분intermediate

AI 요약

Context

로봇 데이터셋은 비전 정보를 개별 PNG 프레임으로 저장해 왔으나, 프레임 간 높은 중복성으로 인해 저장 공간이 비효율적이었고 로딩 시간도 매우 오래 걸렸다. 기존 형식(HDF5, Zarr, Pickle, TAR, ZIP)은 경량성, 공유 용이성, 시각화 기능이 부족해 데이터셋 확장에 장애물이 되고 있었다.

Technical Solution

비전 모달리티 저장 방식 변경: PNG 개별 프레임에서 현대 비디오 코덱(H.264, H.265, AV1)을 활용한 인코딩으로 전환
공간 압축 적용: JPEG/PNG와 동일한 원리로 프레임 내 유사 색상 영역을 압축해 중복성 제거
시간 압축 적용: 프레임 간 차이값(P-프레임, B-프레임)을 계산해 저장하고 키프레임(I-프레임)을 참조점으로 설정
LeRobotDataset 포맷 정의: 경량하고 공유 가능하며 온라인 시각화 기능을 갖춘 표준화된 데이터셋 형식 제공
벤치마크 기반 코덱 선정: 크기, 디코딩 성능, 시각적 품질, 로드 시간을 기준으로 인코딩 파라미터 최적화

Impact

데이터셋 크기: 평균 14% 수준으로 축소(최적 케이스에서 0.2%까지 달성), 예시로 20GB 데이터가 1GB로 압축
단일 프레임 디코딩 시간: PNG 로딩과 비슷한 수준
연속 다중 프레임 디코딩 시간: PNG 프레임 로딩의 25~50% 수준으로 단축

Key Takeaway

로봇 데이터셋의 비효율성은 이미지 포맷의 선택 오류가 아니라 시간 축 중복성을 활용하지 못한 설계 문제였으며, 비디오 코덱이 제공하는 공간·시간 압축의 이중 구조를 활용하면 저장소와 I/O 성능을 동시에 개선할 수 있다.

실천 포인트

프레임 시퀀스를 저장하는 컴퓨터 비전 시스템에서 개별 이미지 인코딩 대신 현대 비디오 코덱(H.265, AV1)을 도입하면 저장 공간을 86% 이상 절감하면서도 디코딩 성능을 유지할 수 있으며, 특히 연속 프레임 접근 패턴에서 I/O 시간을 50% 이상 단축할 수 있다.

태그

#Video Encoding #Dataset Compression #Robotics #Data Format #Computer Vision

원문 읽기