피드로 돌아가기
Hacker NewsAI/ML
원문 읽기

3B 파라미터 모델로 AIME26 97.1점 달성 및 추론 성능 극대화
VibeThinker: 3B param model that beats Opus 4.5 on reasoning with novel SFT+GRPO
AI 요약
Context
소형 모델의 파라미터 제약으로 인한 고난도 추론 능력 부족 현상 발생. 일반적인 지식 확장 방식으로는 대형 모델 수준의 Verifiable Reasoning 구현에 한계 직면.
Technical Solution
- Spectrum-to-Signal post-training paradigm 기반의 최적화 파이프라인 구축
- Curriculum-based SFT 적용을 통한 단계적 추론 능력 학습
- Multi-domain Reinforcement Learning 기반의 보상 체계 설계로 정답 도달률 제고
- Offline Self-distillation 기법을 통한 추론 경로의 효율적 압축 및 전이
- Parametric Compression-Coverage Hypothesis 적용으로 추론 핵심 코어의 소형화 실현
- Claim-level Test-time Scaling 전략을 통한 추론 시점의 계산 효율 및 정확도 최적화
실천 포인트
1. 도메인 특화 추론 모델 설계 시 단순 데이터 증강보다 Curriculum-based SFT 도입 검토
2. 모델 크기 최적화와 성능 유지 사이의 Trade-off 해결을 위해 Self-distillation 파이프라인 구축
3. 추론 성능 극대화를 위해 Test-time Scaling 전략의 적용 가능성 분석