Open R1 팀이 CodeForces-CoTs 데이터셋(약 100k 샘플)과 IOI 벤치마크를 구축해 OlympicCoder-32B 모델을 통해 100배 이상 큰 폐쇄형 모델을 능가하는 코드 추론 성능 달성

Open R1: Update #3

2025년 3월 11일12분intermediate

AI 요약

Context

기존 경쟁형 프로그래밍 데이터셋(DeepMind의 CodeContests)은 공개 테스트 케이스만 포함해 검증 가능성이 제한적이었다. CodeForces는 공개 테스트 케이스를 약 500자로 제한해 R1이 생성한 7개 솔루션이 공개 테스트는 통과했으나 전체 테스트셋에서 모두 실패하는 문제가 발생했다.

Technical Solution

DeepSeek-R1에서 생성한 체인오브씻(CoT) 데이터셋 구축: C++와 Python으로 된 CodeForces 문제 약 100k 샘플을 R1으로 생성
CodeForces 데이터셋 확보 및 공개: 10k개 이상의 문제(2025년까지), 60%에 대한 편집진 설명(editorial), 문제당 3개의 공식 정답 솔루션 포함
IOI(국제 정보올림피아드) 벤치마크 구축: 2024년 및 과거 IOI 문제(2020년 이후)를 서브태스크 단위로 분할해 처리, CC-BY 라이선스로 공개된 완전한 테스트셋 포함
커스텀 IOI 채점 시스템 개발: 복잡한 문제 설정(Manager 프로세스, Checker)을 처리하는 코드 작성 및 공개
Qwen2.5 Coder Instruct 7B/32B 모델 파인튜닝: CodeForces-CoTs 데이터셋으로 OlympicCoder-7B와 OlympicCoder-32B 생성

Impact

OlympicCoder-32B가 Claude 3.7 Sonnet(폐쇄형 최신 모델) 및 테스트한 모든 오픈웨이트 모델(일부는 32B보다 100배 이상 큼)을 IOI 문제에서 능가

Key Takeaway

완전 검증 가능한 벤치마크(IOI)를 확보하고 고품질 CoT 데이터셋을 체계적으로 구축하면, 규모가 작은 오픈소스 모델도 폐쇄형 대규모 모델 이상의 코드 추론 성능을 달성할 수 있다.

실천 포인트

코드 추론 모델을 개발하는 팀에서 경쟁형 프로그래밍 문제를 기반으로 CoT 데이터셋을 구축할 때, 완전한 테스트셋이 공개된 IOI 같은 벤치마크를 우선적으로 선택하고 학생 수준의 과제보다 실제 대회 문제를 활용하면 모델 성능 검증의 신뢰도를 크게 높일 수 있다.

태그

#Dataset-Construction #Code-Reasoning #LLM

원문 읽기