Hugging Face Hub가 Xet 청크 기반 저장소를 활용한 Storage Buckets을 도입해 ML 중간 산출물의 중복 제거 저장 및 빠른 동기화 지원

Introducing Storage Buckets on the Hugging Face Hub

2026년 3월 10일8분intermediate

AI 요약

Context

Git 기반 버전 관리는 학습 체크포인트, 옵티마이저 상태, 처리된 데이터 샤드, 로그, 트레이스 등 끊임없이 변경되고 여러 작업에서 동시에 도착하는 중간 산출물 저장에는 부적합하다. 이들 파일은 버전 관리보다는 빠른 쓰기, 덮어쓰기, 디렉토리 동기화, 오래된 파일 제거가 필요하다.

Technical Solution

Xet 청크 기반 저장소 도입: 파일을 모놀리식 블롭이 아닌 청크로 분할하고 파일 간 중복 제거를 수행
비버전 관리 저장소 설계: 사용자 또는 조직 네임스페이스 하에 비공개/공개 설정 가능한 Bucket 생성
hf://buckets/username/bucket-name 핸들을 통한 프로그래매틱 접근 지원
hf CLI로 로컬 디렉토리와 Bucket 간 동기화: hf buckets sync ./checkpoints hf://buckets/username/my-training-bucket/checkpoints 명령어 실행
Python API (huggingface_hub v1.5.0+)를 통한 create_bucket, sync_bucket, list_bucket_tree 함수로 학습 스크립트 통합
Pre-warming 기능: AWS 및 GCP 파트너십을 통해 데이터를 계산 리소스가 위치한 클라우드 제공자 및 리전으로 사전에 이동
일회성 작업 지원: hf buckets cp로 개별 파일 복사, hf buckets remove로 오래된 객체 정리

Impact

Enterprise 고객의 경우 중복 제거된 저장소 기반으로 청구되므로 공유 청크가 직접적으로 청구 대상 저장소 크기 감소에 기여한다.

Key Takeaway

ML 워크로드는 원본 데이터와 처리된 데이터, 연속 체크포인트, 에이전트 트레이스 등 관련된 산출물들이 겹치는 콘텐츠를 공유하므로, 청크 레벨 중복 제거 저장소는 대역폭 절감과 전송 속도 향상을 동시에 달성할 수 있다. 생산 중 변경되는 중간 산출물과 최종 공개용 버전 저장소를 명확히 분리하면서도 단일 플랫폼 내에서 워크플로우를 완성할 수 있다.

실천 포인트

ML 학습 및 데이터 파이프라인을 운영하는 팀에서 중간 산출물(체크포인트, 옵티마이저 상태, 처리된 샤드)을 관리할 때 Xet 기반 청크 저장소를 도입하면, Git 기반 관리 대비 개별 파일의 중복 콘텐츠를 제거하여 전송 대역폭을 절감하고 Enterprise 요금제에서는 청구 대상 저장소 크기도 함께 줄일 수 있다. hf CLI 또는 Python API를 통해 기존 학습 스크립트에 `sync_bucket()`을 추가하면 추가 인프라 구성 없이 즉시 통합 가능하다.

태그

#Deduplication #Hugging Face Hub #Storage #Xet #ML

원문 읽기