피드로 돌아가기
SyGra: The One-Stop Framework for Building Data for LLMs and SLMs
Hugging Face BlogHugging Face Blog
AI/ML

ServiceNow가 SyGra 프레임워크로 LLM/SLM 학습 데이터 생성·변환·정렬을 저코드/노코드 방식으로 통합

SyGra: The One-Stop Framework for Building Data for LLMs and SLMs

2025년 9월 22일7intermediate

Context

모델 개발 시 원본 데이터는 학습 또는 정렬에 필요한 형식으로 제공되지 않는다. 도메인 특화, 복잡한 추론 작업, Q&A 형식 변환, SFT에서 DPO로의 전환, 질문의 깊이 향상, PDF/이미지 문서화, 다국어 변환 등 다양한 데이터 생성 시나리오마다 별도의 복잡한 스크립트와 파이프라인 작성이 필요했다.

Technical Solution

  • Python 라이브러리 + 프레임워크 조합으로 기존 ML 워크플로우에 통합 가능하게 제공
  • vLLM, Hugging Face TGI, Triton, Ollama 등 여러 추론 백엔드 지원
  • 프롬프트 엔지니어링에 집중하고 데이터셋 생성의 엔지니어링 부담은 프레임워크가 담당하는 저코드/노코드 설계
  • Q&A 생성, DPO 선호도 쌍 생성, 추론 강화, 다국어 변환 등 다양한 데이터 생성 태스크를 플러그 앤 플레이 방식으로 지원
  • 지식베이스 변환, 문맥 크기 확대, 품질 필터링, 도메인별 미드트레이닝 등 엔드투엔드 데이터 파이프라인 구성 가능

Key Takeaway

LLM/SLM 개발에서 데이터의 품질, 다양성, 구조화는 모델 아키텍처 튜닝보다 중요하며, SyGra와 같은 통합 데이터 생성 프레임워크를 통해 반복적인 파이프라인 개발 없이 다양한 데이터 변환 요구사항을 효율적으로 처리할 수 있다.


LLM 파인튜닝 파이프라인을 구축하는 엔지니어는 SyGra의 Python 라이브러리를 통해 知識ベース-QA 변환, SFT-DPO 데이터셋 생성, 도메인별 필터링 같은 태스크를 별도 스크립트 없이 프롬프트 기반으로 구성하면, 데이터 전처리 개발 시간을 대폭 단축할 수 있다.

원문 읽기