피드로 돌아가기
Task-Seeded Synthetic Q&A Generation for Nemotron Pretraining
Hugging Face BlogHugging Face Blog
AI/ML

Task-Seeded SDG 도입으로 GPQA +11.1 및 MMLU-Pro +1.8 성능 향상 달성

Task-Seeded Synthetic Q&A Generation for Nemotron Pretraining

2026년 6월 4일9advanced

Context

단순 데이터 양 확대보다 학습 신호의 구조적 밀도가 모델 성능을 결정하는 단계에 진입함. 일반 웹 데이터만으로는 복잡한 추론 및 도메인 특화 QA 능력을 정밀하게 제어하기 어려운 한계 존재.

Technical Solution

  • lm-eval-harness의 70개 Task Training Split을 Capability Seed로 활용하여 학습 신호의 방향성 설정
  • Seed 데이터를 기반으로 핵심 역량은 유지하되 콘텐츠를 변형하는 유사 예제 생성 로직 구현
  • 단순 정답 라벨링을 넘어 Reasoning Chain과 관련 지식을 추가하는 Answer Enrichment 공정 도입
  • Option Label(A, B) 대신 Semantic Answer Text를 저장하여 모델에 명확한 학습 신호 제공
  • Schema Check 및 Majority Vote 기반 검증을 통해 Synthetic Data의 품질을 필터링하는 파이프라인 구축
  • Knowledge-intensive(300 subtasks)와 Reasoning-intensive(400 subtasks) 그룹으로 구분하여 균형 잡힌 데이터 셋 구성

Impact

  • Nemotron-3 Nano 100B-token 추가 학습 결과 GPQA +11.1, MMLU-Pro +1.8, Code +1.9, Commonsense +1.6 향상
  • 수학 성능의 하락 없이 타 도메인 지능을 선택적으로 강화하는 성과 달성

Key Takeaway

데이터의 양보다 Task-aligned 구조를 가진 고밀도 학습 신호가 모델의 추론 능력을 결정하며, 단순 암기가 아닌 Transfer Learning 관점의 Seed 설계가 일반화 성능 향상의 핵심임.


- 모델 성능 정체 시 단순 데이터 증강 대신 특정 Task의 Training Split을 활용한 Seed-based 생성 검토 - Synthetic Data 생성 시 정답만 제공하지 말고 추론 과정(Reasoning Trace)을 포함하여 학습 신호 강화 - 정답 형식을 단순 기호(Label)가 아닌 실제 텍스트(Semantic Text)로 구성하여 학습 효율 최적화 - 특정 지표 향상이 타 지표의 성능 저하를 유발하는지 확인하기 위해 Broad Capability Retention 체크리스트 운용

원문 읽기