Numina와 Hugging Face가 DeepSeekMath-Base 7B를 Fine-tuning하고 Self-Consistency + Tool Integrated Reasoning 알고리즘을 적용해 AIMO 1차 진출 상 우승 및 50개 문제 중 29개 해결

How NuminaMath Won the 1st AIMO Progress Prize

2024년 7월 11일12분advanced

AI 요약

Context

오픈 가중치 LLM들이 IMO 수준의 수학 문제 해결에 부족한 성능을 보였다. AIMO 1차 진출 상은 고등학교 수준의 수학 문제 50개를 해결하는 경쟁으로, 9시간 내 제한된 GPU 자원(P100 1대 또는 T4 2대) 내에서 정수 형식의 답을 제출해야 했다.

Technical Solution

DeepSeekMath-Base 7B 모델을 fine-tuning해 자연어 추론과 Python REPL을 혼합하는 추론 에이전트로 변환
Tool Integrated Reasoning (TIR) 디코딩 알고리즘 도입으로 코드 실행 피드백을 통해 솔루션 후보 생성 개선
Self-Consistency와 TIR 결합으로 추론 분산도 제어 및 검증 신뢰성 향상
내부 검증 세트 다양화로 공개 리더보드 과적합 방지 및 모델 선택 지도
TRL, PyTorch, vLLM, DeepSpeed 오픈소스 라이브러리 조합으로 모델 학습 최적화

Impact

최종 제출 모델(NuminaMath 7B TIR)이 비공개 테스트 세트 50개 문제 중 29개 해결로 1차 진출 상 우승.

Key Takeaway

수학 추론 같은 복잡한 문제 해결에서는 모델 fine-tuning, 디코딩 알고리즘 혁신, 검증 데이터셋 전략의 조합이 단순 모델 크기 증가보다 중요하다. 특히 Tool Integrated Reasoning처럼 모델이 외부 도구(코드 실행)의 피드백을 반복적으로 활용하는 구조는 낮은 파라미터 규모에서도 고난이도 문제 해결을 가능하게 한다.

실천 포인트

수학, 과학 분야의 추론이 필요한 LLM 시스템을 구축할 때, 사전학습 모델만으로는 부족하므로 도메인 특화 fine-tuning과 함께 Self-Consistency + Tool Integrated Reasoning 같은 디코딩 전략을 적용하면 7B 규모 모델로도 고등학교 올림피아드 수준 문제를 해결할 수 있다.

태그

#Tool Integration #Fine-Tuning #Self-Consistency #Mathematical Reasoning #LLM

원문 읽기