피드로 돌아가기
Introducing the Synthetic Data Generator - Build Datasets with Natural Language
Hugging Face BlogHugging Face Blog
AI/ML

Argilla와 Hugging Face가 LLM 기반 Synthetic Data Generator를 출시해 프롬프트 입력만으로 분류·대화 데이터셋을 자동 생성 및 학습까지 가능하게 함

Introducing the Synthetic Data Generator - Build Datasets with Natural Language

2024년 12월 16일9beginner

Context

데이터셋 생성은 전통적으로 데이터 엔지니어나 도메인 전문가의 수작업이 필요했으며, 코드 기반의 파이프라인 구축이 필수적이었다. 특히 LLM 기반 합성 데이터 생성 시 distilabel, Hugging Face API 등의 복잡한 기술 스택 이해가 필요했다.

Technical Solution

  • no-code UI 기반 3단계 프로세스: 데이터셋 설명 입력 → 샘플 생성 및 시스템 프롬프트 조정 → 대규모 생성 및 Argilla·Hugging Face Hub 자동 저장
  • distilabel 프레임워크와 Hugging Face 무료 text-generation API를 백엔드로 통합: 사용자는 UI만 조작하며 복잡한 파이프라인 관리 불필요
  • Text Classification 작업: 다양한 텍스트 생성 → 자동 라벨링의 2단계 LLM 파이프라인 구현
  • Chat Dataset 작업: 지도 학습 미세 조정(SFT) 용도의 대화형 데이터 생성 파이프라인 지원
  • Argilla 통합을 통한 생성 데이터 검증: 의미론적 검색(semantic search) 및 합성 가능한 필터로 데이터 품질 확인
  • 생성 속도 조절 가능: Text Classification은 분당 50샘플, Chat은 분당 20샘플 기본 생성 (BATCH_SIZE 조정으로 확장 가능)
  • AutoTrain 연동으로 no-code 모델 학습: 생성된 데이터셋으로 즉시 모델 미세 조정 가능
  • 로컬 배포 지원: Python pip 설치로 자체 서버에 구성 가능 (Apache 2 라이선스)
  • 고급 커스터마이징: 기본 Llama-3.1-8B 대신 Llama-3.1-70B·GPT-4o 등 모델 변경, API 프로바이더 교체, Argilla 비공개 인스턴스 연결 지원

Impact

생성 속도: Text Classification 분당 50샘플, Chat 데이터셋 분당 20샘플 달성

Key Takeaway

LLM 기반 데이터 생성 파이프라인을 no-code UI로 추상화하면 비기술자도 분석용 데이터셋을 자체 구축할 수 있다. 동시에 distilabel의 공개 파이프라인 코드 공유로 투명성과 재현성을 확보했다.


데이터 부족으로 모델 학습이 어려운 팀은 Synthetic Data Generator의 프롬프트 기반 데이터셋 생성 → Argilla에서 품질 검증 → AutoTrain으로 즉시 모델 학습하는 엔드투엔드 워크플로우를 도입하면 몇 분 내에 고객 지원·뉴스 분류 등 도메인 특화 모델을 구축할 수 있다.

원문 읽기