VibeThinker-3B: SFT+GRPO로 Opus 4.5 추론 성능을 넘긴 3B 모델

3B 파라미터로 Opus 4.5급 추론 성능을 구현한 VibeThinker-3B

neo2026년 6월 25일13분advanced

AI 요약

Context

대규모 모델의 높은 추론 비용과 배포 효율성 저하라는 한계점이 존재함. 검증 가능한 추론 능력은 작은 Reasoning Core에 압축 가능하다는 Parametric Compression-Coverage Hypothesis를 실증하기 위한 시도임.

실천 포인트

1. 도메인 특화 소형 모델 설계 시 지식 암기보다 추론 프로세스 학습에 가중치를 둔 데이터 큐레이션 검토

2. 모델 크기 제약 상황에서 Test-time Scaling(CLR 등) 도입을 통한 추론 성능 보완 고려

3. SFT-RL-Distillation으로 이어지는 단계적 커리큘럼 학습 파이프라인 구축

4. Tool-calling 등 범용 기능과 순수 추론 성능의 트레이드오프 분석

태그