Task-Seeded SDG 도입으로 GPQA +11.1 및 MMLU-Pro +1.8 성능 향상 달성

Task-Seeded Synthetic Q&A Generation for Nemotron Pretraining

2026년 6월 4일9분advanced

AI 요약

Context

단순 데이터 양 확대보다 학습 신호의 구조적 밀도가 모델 성능을 결정하는 단계에 진입함. 일반 웹 데이터만으로는 복잡한 추론 및 도메인 특화 QA 능력을 정밀하게 제어하기 어려운 한계 존재.

Technical Solution

lm-eval-harness의 70개 Task Training Split을 Capability Seed로 활용하여 학습 신호의 방향성 설정
Seed 데이터를 기반으로 핵심 역량은 유지하되 콘텐츠를 변형하는 유사 예제 생성 로직 구현
단순 정답 라벨링을 넘어 Reasoning Chain과 관련 지식을 추가하는 Answer Enrichment 공정 도입
Option Label(A, B) 대신 Semantic Answer Text를 저장하여 모델에 명확한 학습 신호 제공
Schema Check 및 Majority Vote 기반 검증을 통해 Synthetic Data의 품질을 필터링하는 파이프라인 구축
Knowledge-intensive(300 subtasks)와 Reasoning-intensive(400 subtasks) 그룹으로 구분하여 균형 잡힌 데이터 셋 구성

Impact

Nemotron-3 Nano 100B-token 추가 학습 결과 GPQA +11.1, MMLU-Pro +1.8, Code +1.9, Commonsense +1.6 향상
수학 성능의 하락 없이 타 도메인 지능을 선택적으로 강화하는 성과 달성

Key Takeaway

데이터의 양보다 Task-aligned 구조를 가진 고밀도 학습 신호가 모델의 추론 능력을 결정하며, 단순 암기가 아닌 Transfer Learning 관점의 Seed 설계가 일반화 성능 향상의 핵심임.

실천 포인트

- 모델 성능 정체 시 단순 데이터 증강 대신 특정 Task의 Training Split을 활용한 Seed-based 생성 검토 - Synthetic Data 생성 시 정답만 제공하지 말고 추론 과정(Reasoning Trace)을 포함하여 학습 신호 강화 - 정답 형식을 단순 기호(Label)가 아닌 실제 텍스트(Semantic Text)로 구성하여 학습 효율 최적화 - 특정 지표 향상이 타 지표의 성능 저하를 유발하는지 확인하기 위해 Broad Capability Retention 체크리스트 운용

태그

#Transfer Learning #Task-Seeded #Reasoning Chain #LLM Pretraining #Synthetic Data Generation

원문 읽기