Open R1 프로젝트가 512개 H100 GPU에서 SGLang을 도입해 생성 속도를 2배 향상시켜 800k개의 DeepSeek R1 추론 트레이스 생성

Open R1: Update #2

2025년 2월 10일9분intermediate

AI 요약

Context

DeepSeek R1의 600k 추론 트레이스가 공개되지 않아 커뮤니티가 독립적으로 고품질 수학 추론 데이터셋을 재구성할 필요가 있었다. 기존 공개 데이터셋들(OpenThoughts-114k, Bespoke-Stratos-17k 등)이 규모나 품질 면에서 제한적이었다.

Technical Solution

vLLM 대신 SGLang 도입: H100당 생성 처리량을 시간당 15개 솔루션에서 25개로 증가시켜 일일 300k개 문제 솔루션 생성 능력 확보
다중 답변 생성 전략: 400k개의 각 문제마다 2~4개의 솔루션 생성으로 거부 샘플링 및 DPO 학습에 유연성 제공
NuminaMath 1.5 기반 확장: 개선된 수학 데이터셋을 기반으로 16k 토큰 제한을 설정하여 문제의 75%는 8k 토큰 이내, 나머지는 16k 토큰 내에서 해결 가능
이중 검증 필터링: Math Verify로 1차 필터링 후 Llama-3.3-70B-Instruct를 판정자로 활용해 거부된 샘플 중 28k개 문제를 추가로 복구
추론 길이 제어: Budget forcing과 Cosine Reward 함수를 통해 학습 시점과 추론 시점에서 CoT 길이를 제어하고 테스트 타임 스케일링 달성

Impact

SGLang 도입으로 vLLM 대비 2배 생성 속도 향상
55% 문제에서 최소 1개 이상의 정답 추론 트레이스 확보
Qwen-7B-Math-Instruct를 OpenR1-Math-220k로 파인튜닝해 DeepSeek-Distill-Qwen-7B와 동일 성능 달성
다른 데이터셋(LIMO)은 817개 샘플만으로도 AIME 및 MATH 벤치마크에서 강력한 성능 달성

Key Takeaway

로컬 인프라 기반 효율적인 데이터 생성 파이프라인과 자동화된 다단계 검증 프로세스를 조합하면 대규모 고품질 추론 데이터셋을 구축할 수 있으며, 이는 더 작은 모델들을 강화할 수 있는 증류 학습의 기반이 된다.

실천 포인트

대규모 언어 모델 파인튜닝이 필요한 팀들은 SGLang을 vLLM 대신 도입해 동일한 인프라에서 2배 빠른 추론 트레이스 생성이 가능하며, Math Verify와 같은 자동화된 검증 도구와 LLM 판정자를 조합하면 복잡한 형식의 답변도 220k+ 규모의 정확한 학습 데이터셋을 구축할 수 있다.

태그

#Inference #DistilledLearning #Dataset #LLM #SGLang

원문 읽기