Hugging Face가 Mixtral-8x7B를 활용해 30만 개 파일, 250억 토큰 규모의 합성 데이터셋 Cosmopedia를 생성하고 오픈소스화하여 Phi-1.5 성능 재현

Cosmopedia: how to create large-scale synthetic data for pre-training Large Language Models

2024년 3월 20일12분intermediate

AI 요약

Context

Microsoft의 Phi 모델들이 합성 데이터로 학습되어 더 큰 모델들을 능가하는 성능을 보였으나, 데이터셋 생성 방법과 실제 데이터가 공개되지 않아 재현 불가능했다. 합성 데이터를 수천 개에서 수백만 개 샘플 규모로 확장하여 LLM 사전학습용으로 사용하는 것은 구체적인 방법론이 부족했다.

Technical Solution

프롬프트 기반 합성 데이터 생성: Mixtral-8x7B-Instruct-v0.1 모델을 사용하여 교과서, 블로그 포스트, 스토리, 위키하우 형식의 텍스트 생성
30백만 개 프롬프트 큐레이션: 수백 개 주제를 커버하고 1% 미만의 중복률 달성을 위해 HuggingChat을 사용한 반복적 프롬프트 엔지니어링 수행
이중 시드 데이터 접근법: 큐레이션된 소스와 웹 데이터를 조건으로 사용하여 다양성 확보
할루시네이션 저감 전략: 역사적 사실이나 수학 추론이 필요한 주제에서 발생하는 모델 환각 문제 인식 및 RAG(검색 증강 생성) 도입 검토
완전 공개 파이프라인: 코드, 데이터셋, 1B 파라미터 모델(cosmo-1b)을 모두 오픈소스로 공개하여 재현성 확보

Impact

25억 개 토큰 규모의 합성 데이터셋 생성 (Phi-1.5의 20억 토큰 초과)
30백만 개 파일 생성
프롬프트 중복률 1% 미만

Key Takeaway

대규모 합성 데이터 생성에서 GPU 병렬 처리보다 프롬프트 큐레이션의 설계가 핵심임을 보여준다. 프롬프트 다양성과 중복률 관리를 통해 수십억 토큰 규모의 고품질 학습 데이터를 생성할 수 있으며, 완전 공개를 통해 커뮤니티 검증과 개선이 가능하다.

실천 포인트

LLM 사전학습 데이터셋을 구축하는 팀이 합성 데이터를 활용할 때, 초기에 HuggingChat 같은 도구로 소규모 프롬프트를 반복 검증한 후 대규모 생성 파이프라인을 실행하면 중복률을 1% 미만으로 유지하면서 수십억 토큰 규모의 다양한 데이터를 확보할 수 있다.

태그

#SyntheticData #DataGeneration #PreTraining #Mixtral #LLM

원문 읽기