피드로 돌아가기
VibeThinker: 3B param model that beats Opus 4.5 on reasoning with novel SFT+GRPO
Hacker NewsHacker News
AI/ML

3B 파라미터 모델로 AIME26 97.1점 달성 및 추론 성능 극대화

VibeThinker: 3B param model that beats Opus 4.5 on reasoning with novel SFT+GRPO

2026년 6월 23일2advanced

Context

소형 모델의 파라미터 제약으로 인한 고난도 추론 능력 부족 현상 발생. 일반적인 지식 확장 방식으로는 대형 모델 수준의 Verifiable Reasoning 구현에 한계 직면.

Technical Solution

  • Spectrum-to-Signal post-training paradigm 기반의 최적화 파이프라인 구축
  • Curriculum-based SFT 적용을 통한 단계적 추론 능력 학습
  • Multi-domain Reinforcement Learning 기반의 보상 체계 설계로 정답 도달률 제고
  • Offline Self-distillation 기법을 통한 추론 경로의 효율적 압축 및 전이
  • Parametric Compression-Coverage Hypothesis 적용으로 추론 핵심 코어의 소형화 실현
  • Claim-level Test-time Scaling 전략을 통한 추론 시점의 계산 효율 및 정확도 최적화

1. 도메인 특화 추론 모델 설계 시 단순 데이터 증강보다 Curriculum-based SFT 도입 검토

2. 모델 크기 최적화와 성능 유지 사이의 Trade-off 해결을 위해 Self-distillation 파이프라인 구축

3. 추론 성능 극대화를 위해 Test-time Scaling 전략의 적용 가능성 분석

원문 읽기