피드로 돌아가기
Hugging Face BlogAI/ML
원문 읽기
Argilla와 Hugging Face가 Hugging Face 계정 기반 인증과 Spaces 플랫폼 통합으로 커뮤니티 협업 데이터셋 구축 진입 장벽을 제거하여 350명의 기여자로부터 11,000개 이상의 프롬프트 평가 수집
Data is better together: Enabling communities to collectively build better datasets together using Argilla and Hugging Face Spaces
AI 요약
Context
많은 언어, 도메인, 작업에서 고품질 학습 데이터셋이 부족하며, 기존 협업적 데이터셋 구축 노력들은 효율적인 주석 작업 설정의 복잡성으로 인해 제약을 받고 있었다. 비프로그래머도 AI 개발에 기여할 수 있는 접근성 있는 데이터셋 구축 인프라가 필요했다.
Technical Solution
- Argilla 오픈소스 도구에 Hugging Face 계정 기반 인증 지원 추가: 사용자가 몇 초 내에 주석 작업에 참여 가능하도록 변경
- Argilla 인스턴스를 Hugging Face Spaces 플랫폼에 호스팅: 별도 인프라 구축 없이 주석 애플리케이션 배포 가능
- 코호트 참여자에게 무료 지속형 스토리지 및 개선된 CPU Spaces 제공: 리소스 제약 없이 확장 가능
- 텍스트 기반 데이터셋에 중점: 초기 단계에서 멀티모달 데이터셋은 미지원
- 선택적 조직 제한: 특정 Hugging Face Hub 조직 멤버만 접근 가능한 폐쇄형 작업 또는 완전 공개 작업 모두 지원
Impact
- 350명의 커뮤니티 기여자 확보
- 11,000개 이상의 프롬프트 평가 수집
- 10,000개 프롬프트가 포함된 10k_prompts_ranked 데이터셋 출시
Key Takeaway
Hugging Face 계정 인증과 Spaces 호스팅을 통해 데이터셋 구축의 기술적 진입 장벽을 제거하면, 대규모 커뮤니티 기여를 신속하게 동원할 수 있으며, 저자원 언어와 전문 도메인의 데이터셋 부족 문제를 커뮤니티 협력으로 해결할 수 있다.
실천 포인트
ML 데이터셋이 부족한 특정 언어, 도메인, 작업을 가진 팀에서는 Argilla + Hugging Face Spaces 조합을 도입하여 기존 플랫폼 계정(예: Hugging Face 계정)과 인증을 연동하면, 별도 사용자 관리 시스템 없이 수백 명의 비기술 기여자로부터 데이터 수집을 시작할 수 있다.