피드로 돌아가기
Introducing the Palmyra-mini family: Powerful, lightweight, and ready to reason!
Hugging Face BlogHugging Face Blog
AI/ML

WRITER가 Chain of Thought 학습으로 1.5B~1.7B 경량 모델 3종을 출시해 GSM8K 82.87%, AMC23 92.5% 달성

Introducing the Palmyra-mini family: Powerful, lightweight, and ready to reason!

2025년 9월 11일6intermediate

Context

소형 언어모델(1.5B~1.7B 파라미터)은 추론 능력이 제한적이어서 복잡한 논리 문제 해결에 부적합했다.

Technical Solution

  • Chain of Thought(CoT) 학습 도입: 모델이 단계적 사고 과정을 학습하도록 훈련
  • Qwen 아키텍처 기반 구현: vLLM, SGLang, TRTLLM, TGI 등 인기 추론 프레임워크에서 호환
  • 강화학습(RL) 파인튜닝 적용: palmyra-mini-thinking-b의 경우 기본 모델 대비 pass@1 정확도 개선
  • GGUF 및 MLX 양자화 제공: 엣지 디바이스 및 로컬 배포 최적화
  • 3가지 모델 변형 제시: 범용 모델(palmyra-mini), 논리 추론 특화(thinking-a), 수학 문제 특화(thinking-b)

Impact

  • palmyra-mini: Big Bench Hard에서 52.6% 정확도
  • palmyra-mini-thinking-a: GSM8K 82.87% 정확도(엄격한 매칭 기준)
  • palmyra-mini-thinking-b: AMC23에서 92.5% 정확도
  • palmyra-mini-thinking-b: AIME24, AIME25, GPQA, HMMT25, HLE, MMLU_PRO, MATH500, LCB 벤치마크에서 최고 평균 성적

Key Takeaway

소형 모델에서 CoT 기반 학습은 추론 성능을 대폭 향상시키지만, RL 파인튜닝은 pass@1 정확도와 샘플링 다양성 간 트레이드오프를 야기하므로 사용 목적에 맞는 선택이 필요하다.


경량 모델 기반 추론 시스템을 구축할 때, Chain of Thought 학습을 도입하면 1.5B~1.7B 파라미터 모델도 수학 문제(GSM8K 82.87%)와 복잡한 논리(AMC23 92.5%) 수준의 성능을 달성할 수 있으며, GGUF/MLX 양자화로 엣지 배포 효율성을 확보할 수 있다.

원문 읽기