Open-R1 팀이 DeepSeek-R1의 공개되지 않은 학습 데이터셋과 코드를 재현해 오픈소스 추론 모델 구축 기반 마련

Open-R1: a fully open reproduction of DeepSeek-R1

2025년 1월 28일7분advanced

AI 요약

Context

OpenAI의 o1 모델이 추론 태스크에서 뛰어난 성능을 보였으나 학습 방식이 비공개 상태였다. DeepSeek-R1이 o1 수준의 성능을 달성하면서 기술 보고서를 공개했지만, 실제 학습 데이터셋과 코드는 공개하지 않았다. 이로 인해 데이터 수집 방식, 하이퍼파라미터 설정, 스케일링 법칙 등이 명확하지 않은 상태로 남았다.

Technical Solution

순수 강화학습 파이프라인 재현: Group Relative Policy Optimization(GRPO)을 사용한 감독 없는 학습 방식 구현으로 R1-Zero 모델 복제
콜드 스타트 파인튜닝 단계 도입: 소수의 정제된 샘플로 초기 학습 후 강화학습 진행하는 2단계 학습 전략으로 응답 품질 개선
보상 시스템 설계: 정확도 기반 및 검증 가능한 보상으로 모델에 피드백 제공하여 단계별 문제 해결과 자가 검증 능력 강화
대규모 추론 특화 데이터셋 큐레이션: 수학, 코드, 추론 분야의 새로운 대규모 데이터셋 구성으로 R1-Distill 모델 학습 기반 제공
다단계 학습 레시피 문서화: 베이스 모델→감독 미세조정(SFT)→강화학습 단계를 통해 기존 LLM을 추론 모델로 변환 가능하도록 공개

Impact

DeepSeek-V3 베이스 모델 학습에 $5.5M이 소요되었으며, 이는 Multi Token Prediction(MTP), Multi-Head Latent Attention(MLA), 하드웨어 최적화를 통해 달성되었다.

Key Takeaway

강화학습을 통한 추론 능력 향상은 공개된 기술 세부사항(데이터 큐레이션 방식, 학습 코드, 보상 함수 설계)이 재현과 개선을 가능하게 한다. 오픈소스 커뮤니티의 협력으로 비공개 모델의 한계를 극복하고 더 나은 추론 모델 개발을 가속할 수 있다.

실천 포인트

LLM 기반 추론 시스템을 구축하는 엔지니어링 팀은 Open-R1의 공개 데이터셋과 학습 레시피를 활용해 감독 미세조정 후 강화학습을 적용하면, 기존 베이스 모델으로부터 수학·코딩·논리 추론 성능을 단계적으로 향상시킬 수 있다.

태그

#Open Source #Reasoning Models #Language Models #Reinforcement Learning #DeepSeek-R1

원문 읽기