피드로 돌아가기
Huggy Lingo: Using Machine Learning to Improve Language Metadata on the Hugging Face Hub
Hugging Face BlogHugging Face Blog
Backend

Hugging Face Hub이 fastText 언어 감지 모델과 dataset viewer API를 조합해 메타데이터 없는 5만개 데이터셋 중 87%의 언어 정보 자동 감지 및 Librarian-Bot을 통한 자동 PR 생성

Huggy Lingo: Using Machine Learning to Improve Language Metadata on the Hugging Face Hub

2023년 8월 2일8intermediate

Context

Hugging Face Hub의 약 5만개 공개 데이터셋 중 87%가 언어 메타데이터를 지정하지 않고 있어, 사용자가 특정 언어 데이터셋을 검색할 때 관련 자료를 놓치고 있다. 이는 특히 오픈소스 LLM 개발을 위한 고품질 학습 데이터 탐색을 어렵게 하고 Hub의 언어 편향성 파악을 방해한다.

Technical Solution

  • 언어 감지 모델 선정: Meta의 facebook/fasttext-language-identification fastText 모델을 사용해 텍스트 기반 언어 식별
  • 데이터 수집 방식: dataset viewer API를 통해 전체 데이터셋을 다운로드하지 않고 각 데이터셋의 처음 20개 행만 샘플링
  • 텍스트 컬럼 필터링: 'text', 'prompt' 등 텍스트 관련 컬럼과 string 타입 피처만 선택해 언어 감지 대상 범위 제한
  • 언어 매핑 최적화: 지역 변형 언어(예: Chinese Simplified와 Chinese Traditional)를 상위 카테고리로 통합해 다양성 손실과 주관적 판단 트레이드오프 관리
  • 자동 메타데이터 업데이트: Librarian-Bot이 예측된 언어 정보를 YAML 메타데이터에 자동으로 반영하는 pull request를 생성

Key Takeaway

머신러닝 모델과 기존 API 인프라를 조합하면 수동 큐레이션이 불가능한 규모의 메타데이터를 자동으로 보강할 수 있으며, 자동화된 bot을 통해 커뮤니티 거버넌스 프로세스와 통합할 수 있다.


대규모 공개 데이터 저장소를 운영하는 팀에서 언어, 도메인, 태스크 같은 필수 메타데이터가 누락된 경우, 경량 샘플링 API와 사전학습 분류 모델을 조합한 후 자동 PR bot으로 통합하면 전체 데이터셋을 다운로드하지 않으면서도 메타데이터 커버리지를 87%에서 유의미한 수준까지 증대시킬 수 있다.

원문 읽기