피드로 돌아가기
Hugging Face BlogAI/ML
원문 읽기
Open R1 프로젝트가 512개 H100 GPU에서 SGLang을 도입해 생성 속도를 2배 향상시켜 800k개의 DeepSeek R1 추론 트레이스 생성
Open R1: Update #2
AI 요약
Context
DeepSeek R1의 600k 추론 트레이스가 공개되지 않아 커뮤니티가 독립적으로 고품질 수학 추론 데이터셋을 재구성할 필요가 있었다. 기존 공개 데이터셋들(OpenThoughts-114k, Bespoke-Stratos-17k 등)이 규모나 품질 면에서 제한적이었다.
Technical Solution
- vLLM 대신 SGLang 도입: H100당 생성 처리량을 시간당 15개 솔루션에서 25개로 증가시켜 일일 300k개 문제 솔루션 생성 능력 확보
- 다중 답변 생성 전략: 400k개의 각 문제마다 2~4개의 솔루션 생성으로 거부 샘플링 및 DPO 학습에 유연성 제공
- NuminaMath 1.5 기반 확장: 개선된 수학 데이터셋을 기반으로 16k 토큰 제한을 설정하여 문제의 75%는 8k 토큰 이내, 나머지는 16k 토큰 내에서 해결 가능
- 이중 검증 필터링: Math Verify로 1차 필터링 후 Llama-3.3-70B-Instruct를 판정자로 활용해 거부된 샘플 중 28k개 문제를 추가로 복구
- 추론 길이 제어: Budget forcing과 Cosine Reward 함수를 통해 학습 시점과 추론 시점에서 CoT 길이를 제어하고 테스트 타임 스케일링 달성
Impact
- SGLang 도입으로 vLLM 대비 2배 생성 속도 향상
- 55% 문제에서 최소 1개 이상의 정답 추론 트레이스 확보
- Qwen-7B-Math-Instruct를 OpenR1-Math-220k로 파인튜닝해 DeepSeek-Distill-Qwen-7B와 동일 성능 달성
- 다른 데이터셋(LIMO)은 817개 샘플만으로도 AIME 및 MATH 벤치마크에서 강력한 성능 달성
Key Takeaway
로컬 인프라 기반 효율적인 데이터 생성 파이프라인과 자동화된 다단계 검증 프로세스를 조합하면 대규모 고품질 추론 데이터셋을 구축할 수 있으며, 이는 더 작은 모델들을 강화할 수 있는 증류 학습의 기반이 된다.
실천 포인트
대규모 언어 모델 파인튜닝이 필요한 팀들은 SGLang을 vLLM 대신 도입해 동일한 인프라에서 2배 빠른 추론 트레이스 생성이 가능하며, Math Verify와 같은 자동화된 검증 도구와 LLM 판정자를 조합하면 복잡한 형식의 답변도 220k+ 규모의 정확한 학습 데이터셋을 구축할 수 있다.