피드로 돌아가기
GeekNewsAI/ML
원문 읽기
VibeThinker-3B: SFT+GRPO로 Opus 4.5 추론 성능을 넘긴 3B 모델
3B 파라미터로 Opus 4.5급 추론 성능을 구현한 VibeThinker-3B
AI 요약
Context
대규모 모델의 높은 추론 비용과 배포 효율성 저하라는 한계점이 존재함. 검증 가능한 추론 능력은 작은 Reasoning Core에 압축 가능하다는 Parametric Compression-Coverage Hypothesis를 실증하기 위한 시도임.
Technical Solution
- Spectrum-to-Signal 패러다임 기반의 사후학습 파이프라인 설계
- 커리큘럼 기반 지도 미세조정(SFT)을 통한 기초 추론 경로 학습
- 다중 도메인 강화학습(RL) 및 오프라인 자기증류를 통한 추론 정밀도 향상
- LLM 기반의 다단계 품질 관리를 통한 고품질 질의 필터링 및 데이터 정제
- Claim-Level Reliability Assessment(CLR) 적용을 통한 Test-time Scaling 전략 구현
- 지식 저장소(Knowledge Base) 규모를 줄이는 대신 추론 프로세스 자체를 최적화한 설계
실천 포인트
1. 도메인 특화 소형 모델 설계 시 지식 암기보다 추론 프로세스 학습에 가중치를 둔 데이터 큐레이션 검토
2. 모델 크기 제약 상황에서 Test-time Scaling(CLR 등) 도입을 통한 추론 성능 보완 고려
3. SFT-RL-Distillation으로 이어지는 단계적 커리큘럼 학습 파이프라인 구축
4. Tool-calling 등 범용 기능과 순수 추론 성능의 트레이드오프 분석