Hugging Face Hub가 ML 데이터셋 호스팅 플랫폼에 SQL Console, Dataset Viewer, 스트리밍 기능을 추가해 테라바이트급 데이터셋의 탐색과 공유를 브라우저 기반으로 제공

Share your open ML datasets on Hugging Face Hub!

2024년 11월 12일8분beginner

AI 요약

Context

공개 ML 데이터셋(Common Crawl, ImageNet, Common Voice 등)은 오픈 ML 생태계에 핵심이지만 호스팅과 공유가 어렵다는 과제가 있었다. 데이터 집약적 연구 프로젝트에서 신뢰할 수 있는 데이터셋 공유 및 호스팅 방식이 필요했다.

Technical Solution

테라바이트급 데이터셋 호스팅: 현재 파일당 50GB 제한을 500GB로 확대하는 Xet 백엔드 업데이트 진행 중
Dataset Viewer 도입: CSV, JSON, Parquet 등 다양한 파일 형식과 audio, image, video 모달리티를 지원하는 브라우저 기반 데이터 탐색 도구 제공
전문 텍스트 검색 기능: 데이터셋 내 텍스트 컬럼에 대해 즉시 검색 가능하게 구현
Dataset Streaming 기능: 전체 다운로드 없이 대용량 데이터셋의 일부를 선택해 작업 가능하도록 구현
SQL Console 추가: 브라우저에서 DuckDB 전체 SQL 문법을 사용해 대화형 데이터 쿼리 실행 가능
서드파티 라이브러리 통합: Pandas, Spark, Polars, DuckDB, Dask, WebDataset, Argilla 등과 호환성 제공으로 단일 코드 라인으로 데이터셋 로드 가능
커뮤니티 기능 강화: 데이터셋별 토론 탭, 조직 단위 그룹화, 사용량 메트릭 제공

Impact

Hugging Face Hub는 5백만 이상의 활성 빌더를 보유하고 있으며, 파일당 제한이 50GB에서 500GB로 확대될 예정이다.

Key Takeaway

ML 데이터셋 공유 플랫폼에서는 호스팅 용량 확장만이 아니라 브라우저 기반 탐색(Dataset Viewer), 스트리밍 방식 접근, SQL 기반 쿼리 인터페이스 등 사용자의 데이터 접근 편의성을 함께 제공해야 연구 공유 활성화와 낮은 컴퓨팅 환경의 연구자들의 접근성을 동시에 확보할 수 있다.

실천 포인트

ML 데이터셋을 공개할 계획이 있는 연구팀이나 기업에서 Hugging Face Hub를 활용하면 Pandas/Polars/DuckDB 등 기존 분석 도구와의 통합을 통해 별도 ETL 구축 비용을 줄이면서도 Dataset Viewer의 전문 텍스트 검색과 SQL Console을 이용해 데이터 품질 검증과 샘플링을 빠르게 수행할 수 있다.

태그

#SQL Console #ML Infrastructure #Dataset Hosting #Data Sharing #Hugging Face

원문 읽기