피드로 돌아가기
Introducing Prodigy-HF: a direct integration with Hugging Face
Hugging Face BlogHugging Face Blog
Backend

Explosion이 Prodigy-HF 플러그인을 출시해 Hugging Face 모델 파인튜닝과 데이터셋 업로드 기능을 직접 통합

Introducing Prodigy-HF: a direct integration with Hugging Face

2023년 11월 7일5beginner

Context

Prodigy 사용자들이 어노테이션 데이터를 Hugging Face 모델로 학습시키려면 별도의 스크립트 작성과 데이터 형식 변환이 필요했다. 또한 작성한 어노테이션 데이터를 커뮤니티와 공유하는 과정이 번거로웠다.

Technical Solution

  • Hugging Face AutoTokenizer와 AutoModel 클래스와 직접 연동되는 CLI 커맨드 제공: python -m prodigy hf.train.nerpython -m prodigy hf.train.textcat 레시피로 transformer 모델 파인튜닝
  • DistilBERT 등 Hugging Face Hub의 모든 transformer 모델을 단일 커맨드로 Prodigy 어노테이션 데이터로 파인튜닝 가능
  • 파인튜닝된 NER 모델을 hf.correct.ner 레시피로 재사용해 모델 예측값을 어노테이션 인터페이스에 표시
  • 파인튜닝된 모델을 디스크에 직렬화해 저장하고 Hugging Face Hub에 업로드 가능
  • hf.upload 커맨드로 Prodigy 어노테이션 데이터셋을 Hugging Face Hub에 게시

Key Takeaway

도메인 특화 데이터셋을 어노테이션하는 워크플로우에서 모델 파인튜닝과 데이터 공유를 기존 플랫폼의 API와 직접 통합하면, 사용자의 작업 반복을 줄이고 협업 기반의 데이터 구축 생태계를 형성할 수 있다.


NLP 데이터 어노테이션 작업을 수행하는 팀에서 Prodigy-HF 플러그인을 도입하면, Hugging Face Hub의 사전학습 모델을 자체 어노테이션 데이터로 파인튜닝하고 단일 커맨드로 Hub에 데이터셋을 게시해 수동 데이터 변환 및 모델 학습 스크립트 작성 비용을 제거할 수 있다.

원문 읽기