Intel AI Labs가 Qwen3-4B에 Python 샌드박스 실행자와 GRPO 파인튜닝을 결합해 수학 추론 출력 길이 66% 감소와 정확도 향상 달성

DeepMath: A lightweight math reasoning Agent with smolagents

2025년 12월 4일10분intermediate

AI 요약

Context

대형 언어 모델의 수학 문제 해결 능력은 장황한 chain-of-thought 트레이스와 산술 오류 발생으로 인해 제한되고 있었다. 기존 접근법은 출력 간결성을 줄이거나 계산-중심의 트레이스 생성을 명시적으로 훈련하지 않았다.

Python 스니펫 생성 및 샌드박스 실행: 모델이 수학 단계별 간결한 Python 코드를 생성하고 격리된 환경에서 안전하게 실행한 후 결과를 컨텍스트에 재통합
smolagents 라이브러리 기반 에이전트 구현: 모델이 일반 토큰 또는 Python 스니펫을 포함한 특수 에이전트 호출을 출력할 수 있도록 인터페이스 구성
GRPO 파인튜닝 적용: 정확도(+1), 코드 스니펫 생성(10:1 가중치), 토큰 길이 제한(5k 토큰)으로 보상 설계하여 간결하고 정확한 응답 유도
선형 온도 스케줄링: 훈련 초기 T=1.2에서 T=0.7로 감소시켜 탐색과 안정성의 균형 유지
인컨텍스트 학습: 에이전트 호출과 실행 결과가 포함된 4개의 풀이 예제 제공으로 모델이 구문과 호출/응답 패턴 학습
vLLM 클라이언트/서버 수정: GRPO 완성 생성 시 DeepMath 에이전트를 사용하도록 TRL의 vLLM 클라이언트 및 서버 개선

소규모 모델과 결정론적 계산 실행자의 조합, 그리고 체계적인 GRPO 파인튜닝은 장황한 텍스트 기반 추론을 간결한 계산-중심의 추론으로 전환하여 정확성과 효율성을 동시에 달성할 수 있다. 이 접근법은 샌드박스 기반 안전성 보장과 감사 가능한 실행 흔적을 제공한다.

실천 포인트

수학 문제 해결이 필요한 LLM 기반 시스템에서 smolagents 라이브러리를 통해 모델이 생성한 Python 코드를 격리된 환경에서 실행하고 결과를 컨텍스트에 재통합하면, GRPO 파인튜닝을 병행할 때 출력 길이를 66% 단축하면서도 정확도를 향상시킬 수 있다.

태그