WRITER가 Chain of Thought 학습으로 1.5B~1.7B 경량 모델 3종을 출시해 GSM8K 82.87%, AMC23 92.5% 달성

Introducing the Palmyra-mini family: Powerful, lightweight, and ready to reason!

2025년 9월 11일6분intermediate

AI 요약

Context

소형 언어모델(1.5B~1.7B 파라미터)은 추론 능력이 제한적이어서 복잡한 논리 문제 해결에 부적합했다.

palmyra-mini: Big Bench Hard에서 52.6% 정확도
palmyra-mini-thinking-a: GSM8K 82.87% 정확도(엄격한 매칭 기준)
palmyra-mini-thinking-b: AMC23에서 92.5% 정확도
palmyra-mini-thinking-b: AIME24, AIME25, GPQA, HMMT25, HLE, MMLU_PRO, MATH500, LCB 벤치마크에서 최고 평균 성적

소형 모델에서 CoT 기반 학습은 추론 성능을 대폭 향상시키지만, RL 파인튜닝은 pass@1 정확도와 샘플링 다양성 간 트레이드오프를 야기하므로 사용 목적에 맞는 선택이 필요하다.

실천 포인트

경량 모델 기반 추론 시스템을 구축할 때, Chain of Thought 학습을 도입하면

1.5B~

1.7B 파라미터 모델도 수학 문제(GSM8K

2.87%)와 복잡한 논리(AMC23

2.5%) 수준의 성능을 달성할 수 있으며, GGUF/MLX 양자화로 엣지 배포 효율성을 확보할 수 있다.

태그