피드로 돌아가기
Hugging Face BlogAI/ML
원문 읽기
Task-Seeded SDG 도입으로 GPQA +11.1 및 MMLU-Pro +1.8 성능 향상 달성
Task-Seeded Synthetic Q&A Generation for Nemotron Pretraining
AI 요약
Context
단순 데이터 양 확대보다 학습 신호의 구조적 밀도가 모델 성능을 결정하는 단계에 진입함. 일반 웹 데이터만으로는 복잡한 추론 및 도메인 특화 QA 능력을 정밀하게 제어하기 어려운 한계 존재.
Technical Solution
- lm-eval-harness의 70개 Task Training Split을 Capability Seed로 활용하여 학습 신호의 방향성 설정
- Seed 데이터를 기반으로 핵심 역량은 유지하되 콘텐츠를 변형하는 유사 예제 생성 로직 구현
- 단순 정답 라벨링을 넘어 Reasoning Chain과 관련 지식을 추가하는 Answer Enrichment 공정 도입
- Option Label(A, B) 대신 Semantic Answer Text를 저장하여 모델에 명확한 학습 신호 제공
- Schema Check 및 Majority Vote 기반 검증을 통해 Synthetic Data의 품질을 필터링하는 파이프라인 구축
- Knowledge-intensive(300 subtasks)와 Reasoning-intensive(400 subtasks) 그룹으로 구분하여 균형 잡힌 데이터 셋 구성
Impact
- Nemotron-3 Nano 100B-token 추가 학습 결과 GPQA +11.1, MMLU-Pro +1.8, Code +1.9, Commonsense +1.6 향상
- 수학 성능의 하락 없이 타 도메인 지능을 선택적으로 강화하는 성과 달성
Key Takeaway
데이터의 양보다 Task-aligned 구조를 가진 고밀도 학습 신호가 모델의 추론 능력을 결정하며, 단순 암기가 아닌 Transfer Learning 관점의 Seed 설계가 일반화 성능 향상의 핵심임.
실천 포인트
- 모델 성능 정체 시 단순 데이터 증강 대신 특정 Task의 Training Split을 활용한 Seed-based 생성 검토 - Synthetic Data 생성 시 정답만 제공하지 말고 추론 과정(Reasoning Trace)을 포함하여 학습 신호 강화 - 정답 형식을 단순 기호(Label)가 아닌 실제 텍스트(Semantic Text)로 구성하여 학습 효율 최적화 - 특정 지표 향상이 타 지표의 성능 저하를 유발하는지 확인하기 위해 Broad Capability Retention 체크리스트 운용