피드로 돌아가기
Dev.toDatabase
원문 읽기
TsFile, HDF5 대비 저장 공간 85% 절감(18TB→2.2TB), 압축률 8배 향상
HDF5 vs. TsFile: Efficient Time-Series Data Storage
AI 요약
Context
HDF5는 1987년 NCSA에서 개발된 계층적 데이터 포맷으로, 과학 컴퓨팅과 시뮬레이션에 널리 사용된다. HDF5는 시계열 데이터 특성에 최적화되지 않아 시간 기반 쿼리와 압축 효율에서 한계를 보인다. 시계열 데이터의 증가에 따라 이 불일치가 성능 병목으로 작용하고 있다.
Technical Solution
- [TsFile] → [시계열 전용 컬럼nar 저장 방식으로 데이터 구성]
- [TsFile] → [TS_2DIFF 인코딩으로 타임스탬프 델타 압축 적용]
- [TsFile] → [GORILLA 인코딩으로 부동소수점 데이터 압축]
- [TsFile] → [LZ4 압축 알고리즘으로 저장 공간 추가 절감]
- [TsFile] → [2단계 B-tree 인덱싱으로 시간 범위 쿼리 지원]
Impact
동일 데이터셋 기준 HDF5(압축 포함) 18TB에서 TsFile 2.2TB으로 85% 저장 공간 감소. TsFile 파일 크기는 HDF5 대비 14.31%에 해당하며 압축률 8배 향상 달성.
Key Takeaway
데이터 모델을 실제 데이터 특성에 맞추는 것이 성능 최적화의 핵심이다.
실천 포인트
IoT 센서 및 모니터링 시스템에서 시계열 데이터를 저장할 때 TsFile의 내장 인코딩(GORILLA, TS_2DIFF)과 압축(LZ4)을 적용하면 저장 공간 85% 절감 및 쿼리 성능 향상 효과를 얻을 수 있다.