합성 데이터 파이프라인 구축을 통한 HumanEval 16.8pp 성능 향상

Desktop app to generate LLM fine-tuning datasets — got +16pp on HumanEval

Radosław2026년 4월 29일4분intermediate

AI 요약

Context

LLM Fine-tuning을 위한 고품질 데이터셋 생성 시 발생하는 반복적 패턴과 수동 스크립트 작성의 비효율성 식별. 단순 일괄 생성 방식의 한계로 인한 데이터 다양성 부족 및 품질 관리 난제 해결 필요.

Topic $\rightarrow$ Outline $\rightarrow$ Example로 이어지는 3단계 분해 엔진 설계를 통한 생성 패턴의 단조로움 제거
Category별 최적화된 Generator 모델을 개별 할당하여 데이터 도메인 특성 반영
LLM-as-judge 기반의 Scoring 시스템 도입 및 임계치 미달 샘플의 자동 배제 구조 설계
Embedding 기반 Cosine Similarity 분석을 통한 유사 데이터 제거로 데이터셋 중복 최소화
FastAPI 및 SQLite WAL 모드 기반의 상태 관리로 작업 중단 시 Resume 기능 구현
OpenRouter API 통합을 통한 모델 벤더 종속성 제거 및 자유로운 Generator/Judge 교체 환경 구축

실천 포인트

데이터 생성 시 과도한 필터링 제약은 오히려 파이프라인 병목을 유발하므로 적정 수준의 Noise 허용 필요. 벤치마크 하락 시 지식 부족보다 Format Mismatch 가능성을 우선 검토하고, Generator보다 Judge 모델의 변별력 확보에 우선순위를 둘 것.

태그