Hugging Face와 Argilla가 협력하여 10,000개의 프롬프트 데이터셋을 구축하고 18개 언어로 다국어 확대를 진행한 오픈소스 데이터셋 구축 사례

Data Is Better Together: A Look Back and Forward

2024년 6월 20일5분beginner

AI 요약

Context

영어 중심의 데이터셋만으로는 오픈소스 LLM 커뮤니티의 다양한 언어 및 도메인 요구를 충족할 수 없었다. 특정 언어, 도메인, 태스크에 대한 벤치마크와 데이터셋이 심각하게 부족한 상태였다.

Technical Solution

프롬프트 랭킹 프로젝트 시작: 385명 이상의 커뮤니티 참여자가 합성 데이터와 인간이 생성한 데이터 중 10,000개의 고품질 프롬프트를 DIBT/10k_prompts_ranked 데이터셋으로 구축
Multilingual Prompt Evaluation Project(MPEP) 수립: DIBT/10k_prompts_ranked에서 500개의 고품질 프롬프트 부분집합을 선정하여 다국어 번역 진행
18개 언어별 리더십 팀 구성: 각 언어 전문가가 번역 작업 공간 생성 및 관리 (Dutch, Russian, Spanish 등 완료, 추가 언어 진행 중)
도메인 특화 데이터셋 구축 가이드: 엔지니어와 도메인 전문가를 연결하는 도메인별 데이터셋 부트스트래핑 방법론 제공
DPO/ORPO 및 KTO 데이터셋 생성 도구: 다양한 언어, 도메인, 태스크에 대한 DPO 스타일 데이터셋 및 KTO 데이터셋 구축 지원 가이드

Impact

프롬프트 랭킹 데이터셋이 SPIN 등 새로운 모델 구축에 활용되었다.

Key Takeaway

오픈소스 커뮤니티의 데이터셋 구축 프로젝트는 구체적인 도구, 문서, 명확한 기여 방식 제공 시 300명 이상의 참여를 유도할 수 있으며, 특정 언어·도메인 불균형 해소는 다국어 리더십 팀 구성과 번역 작업 구조화를 통해 체계적으로 접근할 수 있다.

실천 포인트

LLM 모델 개발팀에서 다국어 지원이 필요한 경우, 각 언어별 커뮤니티 리더를 지정하고 소수의 고품질 기준 데이터셋(예: 500개)을 번역 기반으로 확대하며, Discord 등 협업 채널을 통해 진행 상황을 투명하게 공유하면 자발적 참여를 기반으로 다국어 데이터셋을 구축할 수 있다.

태그

#Open Source #Multilingual #Community #Dataset #LLM

원문 읽기