피드로 돌아가기
VibeThinker-3B: SFT+GRPO로 Opus 4.5 추론 성능을 넘긴 3B 모델
GeekNewsGeekNews
AI/ML

VibeThinker-3B: SFT+GRPO로 Opus 4.5 추론 성능을 넘긴 3B 모델

3B 파라미터로 Opus 4.5급 추론 성능을 구현한 VibeThinker-3B

neo2026년 6월 25일13advanced

Context

대규모 모델의 높은 추론 비용과 배포 효율성 저하라는 한계점이 존재함. 검증 가능한 추론 능력은 작은 Reasoning Core에 압축 가능하다는 Parametric Compression-Coverage Hypothesis를 실증하기 위한 시도임.

Technical Solution

  • Spectrum-to-Signal 패러다임 기반의 사후학습 파이프라인 설계
  • 커리큘럼 기반 지도 미세조정(SFT)을 통한 기초 추론 경로 학습
  • 다중 도메인 강화학습(RL) 및 오프라인 자기증류를 통한 추론 정밀도 향상
  • LLM 기반의 다단계 품질 관리를 통한 고품질 질의 필터링 및 데이터 정제
  • Claim-Level Reliability Assessment(CLR) 적용을 통한 Test-time Scaling 전략 구현
  • 지식 저장소(Knowledge Base) 규모를 줄이는 대신 추론 프로세스 자체를 최적화한 설계

1. 도메인 특화 소형 모델 설계 시 지식 암기보다 추론 프로세스 학습에 가중치를 둔 데이터 큐레이션 검토

2. 모델 크기 제약 상황에서 Test-time Scaling(CLR 등) 도입을 통한 추론 성능 보완 고려

3. SFT-RL-Distillation으로 이어지는 단계적 커리큘럼 학습 파이프라인 구축

4. Tool-calling 등 범용 기능과 순수 추론 성능의 트레이드오프 분석

원문 읽기