피드로 돌아가기
Hugging Face BlogAI/ML
원문 읽기
WRITER가 Chain of Thought 학습으로 1.5B~1.7B 경량 모델 3종을 출시해 GSM8K 82.87%, AMC23 92.5% 달성
Introducing the Palmyra-mini family: Powerful, lightweight, and ready to reason!
AI 요약
Context
소형 언어모델(1.5B~1.7B 파라미터)은 추론 능력이 제한적이어서 복잡한 논리 문제 해결에 부적합했다.
Technical Solution
- Chain of Thought(CoT) 학습 도입: 모델이 단계적 사고 과정을 학습하도록 훈련
- Qwen 아키텍처 기반 구현: vLLM, SGLang, TRTLLM, TGI 등 인기 추론 프레임워크에서 호환
- 강화학습(RL) 파인튜닝 적용: palmyra-mini-thinking-b의 경우 기본 모델 대비 pass@1 정확도 개선
- GGUF 및 MLX 양자화 제공: 엣지 디바이스 및 로컬 배포 최적화
- 3가지 모델 변형 제시: 범용 모델(palmyra-mini), 논리 추론 특화(thinking-a), 수학 문제 특화(thinking-b)
Impact
- palmyra-mini: Big Bench Hard에서 52.6% 정확도
- palmyra-mini-thinking-a: GSM8K 82.87% 정확도(엄격한 매칭 기준)
- palmyra-mini-thinking-b: AMC23에서 92.5% 정확도
- palmyra-mini-thinking-b: AIME24, AIME25, GPQA, HMMT25, HLE, MMLU_PRO, MATH500, LCB 벤치마크에서 최고 평균 성적
Key Takeaway
소형 모델에서 CoT 기반 학습은 추론 성능을 대폭 향상시키지만, RL 파인튜닝은 pass@1 정확도와 샘플링 다양성 간 트레이드오프를 야기하므로 사용 목적에 맞는 선택이 필요하다.
실천 포인트
경량 모델 기반 추론 시스템을 구축할 때, Chain of Thought 학습을 도입하면 1.5B~1.7B 파라미터 모델도 수학 문제(GSM8K 82.87%)와 복잡한 논리(AMC23 92.5%) 수준의 성능을 달성할 수 있으며, GGUF/MLX 양자화로 엣지 배포 효율성을 확보할 수 있다.