피드로 돌아가기
Argilla 2.4: Easily Build Fine-Tuning and Evaluation Datasets on the Hub — No Code Required
Hugging Face BlogHugging Face Blog
AI/ML

Argilla 2.4가 Hugging Face Hub 데이터셋을 코드 없이 UI로 직접 임포트하고 주석 추가 가능하도록 변경해 데이터 준비 과정 단순화

Argilla 2.4: Easily Build Fine-Tuning and Evaluation Datasets on the Hub — No Code Required

2024년 11월 4일5beginner

Context

Hugging Face Hub의 230k 데이터셋을 활용하려면 기존에 코드 작성을 통해 데이터셋을 준비하고 주석을 추가해야 했다. 도메인 전문가나 코딩 경험이 부족한 사용자는 고품질 데이터셋 구축에 진입장벽을 느껴왔다.

Technical Solution

  • Hub 데이터셋 임포트: Argilla UI의 "Import dataset from Hugging Face" 버튼으로 공개 데이터셋의 저장소 ID를 입력하여 직접 임포트
  • 자동 설정 제안: 임포트된 데이터셋의 필드 구조를 기반으로 Argilla가 초기 구성(Fields와 Questions)을 자동 생성
  • 필드 및 질문 커스터마이징: 사용자가 피드백 대상 데이터(텍스트, 채팅, 이미지)와 수집할 피드백 유형(라벨, 평가, 순위, 텍스트)을 UI에서 수정
  • 실시간 프리뷰: 모든 변경사항이 실시간으로 표시되어 생성될 Argilla 데이터셋 구조를 확인 후 생성
  • Hugging Face OAuth 통합: Spaces 배포 시 기본으로 OAuth 활성화되어 Hub 사용자로부터 커뮤니티 기반 주석 수집 가능
  • Python SDK 대체 옵션: 추가 커스터마이징이 필요한 경우 기존 Python SDK를 통한 임포트 방식도 유지

Key Takeaway

데이터셋 준비 워크플로우를 코드 기반에서 UI 기반으로 전환하면 비개발자도 고품질 학습 및 평가 데이터셋을 직접 구축할 수 있으며, 공개 Hub 데이터셋에 대한 커뮤니티 기여 활성화 가능하다.


Hugging Face Hub 데이터셋을 활용하는 ML 프로젝트에서 Argilla 2.4의 UI 기반 임포트와 자동 설정 기능을 사용하면 코드 작성 없이 5분 이내에 주석 수집 환경을 구축할 수 있고, Hugging Face OAuth를 활성화한 공개 Space 배포로 커뮤니티로부터의 협력적 데이터 큐레이션을 확보할 수 있다.

원문 읽기