Hugging Face BlogIntel AI Labs가 Qwen3-4B에 Python 샌드박스 실행자와 GRPO 파인튜닝을 결합해 수학 추론 출력 길이 66% 감소와 정확도 향상 달성DeepMath: A lightweight math reasoning Agent with smolagentsAI/MLintermediate15 분 소요2025년 12월 4일