Hugging Face Hub이 190,000개 모델, 33,000개 데이터셋, 100,000개 애플리케이션을 중앙 저장소로 제공하여 GLAM 기관의 머신러닝 모델 접근성 제거

The Hugging Face Hub for Galleries, Libraries, Archives and Museums

2023년 6월 12일7분beginner

AI 요약

Context

갤러리, 라이브러리, 아카이브, 박물관(GLAM) 기관들은 디지털화된 컬렉션을 효과적으로 분석하고 접근할 수 있는 머신러닝 모델 및 데이터셋에 대한 접근이 제한적이었다. 모든 기관이 모델을 처음부터 훈련할 리소스를 보유하지 않으므로, 기존에 공개된 모델과 데이터셋을 활용할 수 있는 통합 플랫폼이 필요했다.

Technical Solution

중앙 집중식 모델·데이터셋 저장소 제공: 190,000개 머신러닝 모델, 33,000개 데이터셋, 100,000개 데모 애플리케이션을 단일 Hub에서 검색 및 접근 가능
Transformers 라이브러리 통합: 사전 훈련된 모델을 Transformers 라이브러리로 직접 로드할 수 있도록 "Use in Transformers" 버튼 제공
Spaces를 통한 API 호스팅: Gradio 및 Streamlit 애플리케이션 배포, Docker 이미지 커스텀 호스팅으로 모델을 API 백엔드로 운영
모델 위젯 기반 성능 사전 검증: 각 모델 페이지에서 샘플 데이터로 모델 성능을 즉시 테스트 가능
CSV 및 스크립트 기반 데이터셋 업로드: 코드 작성 없이 브라우저에서 CSV 파일 직접 업로드, 기존 원격 호스팅 데이터셋은 로딩 스크립트로 연결
조직 단위 리포지토리 및 접근 제어: 기관용 Organization 생성, 모델/데이터셋 게이팅으로 접근 권한 관리
DOI 발급 및 사용량 통계: 모델·데이터셋·데모에 대한 Digital Object Identifier 발급, 월별/누적 다운로드 통계 제공

Key Takeaway

GLAM 기관은 자체 모델 훈련 없이 사전 훈련된 모델(예: 노르웨이 문서용 Named Entity Recognition)을 Hub에서 검색 및 배포할 수 있으며, Spaces와 DOI를 활용해 학술 인용 가능한 형태로 도구와 데이터셋을 공개할 수 있다.

실천 포인트

디지털화된 컬렉션이 있는 문화 기관에서 언어·작업 유형별로 모델을 필터링한 후 모델 위젯으로 성능을 검증하고, Spaces에 Gradio 앱으로 배포하면 메타데이터 자동 추출과 같은 사용 사례를 분석가에게 즉시 제공할 수 있다.

태그

#Hugging Face Hub #GLAM Institutions #Machine Learning Models #Dataset Sharing

원문 읽기