350k 데이터 증강 및 GRPO 기반 DeepSeek-R1 오픈 소스 재현

Open Reproduction of DeepSeek-R1

2026년 6월 11일18분advanced

AI 요약

Context

DeepSeek-R1의 고성능 추론 능력 구현을 위한 전체 파이프라인의 오픈 소스화 필요성 증대. 기존 폐쇄적 모델 구조를 탈피하여 데이터 생성부터 RL 튜닝까지의 과정을 투명하게 공개함으로써 커뮤니티 기반의 재현 가능성 확보를 목표로 함.

Technical Solution

Distilabel을 활용한 고품질 합성 데이터 생성 및 Mixture-of-Thoughts 데이터셋 구축
GRPO(Group Relative Policy Optimization) 알고리즘 적용을 통한 효율적인 RL 튜닝 파이프라인 설계
SFT(Supervised Fine-Tuning)와 RL을 결합한 multi-stage 학습 전략으로 베이스 모델의 추론 성능 극대화
vLLM 및 FlashAttention 최적화를 통한 H100 8개 노드 기준의 고속 추론 및 학습 환경 구성
N-gram 기반 decontaminate 스크립트를 도입하여 벤치마크 데이터 오염 방지 및 검증 신뢰도 확보
DeepSpeed ZeRO-2/3 및 DDP 지원을 통한 대규모 파라미터 모델의 분산 학습 최적화

실천 포인트

- vLLM 및 FlashAttention 최신 버전(v

5.post1 등)과 PyTorch 버전의 호환성 확인 - 분산 학습 시 GPU 수 변화에 따른 Global Batch Size 유지를 위해 per-device batch size 및 gradient accumulation steps 조정 - 모델 평가 전 N-gram 기반 데이터 정제 과정을 통해 벤치마크 오염 여부 필수 검증 - 대규모 모델 학습 시 DeepSpeed ZeRO-3 설정을 통한 메모리 효율 최적화 적용

태그

#Distillation #RLHF #vLLM #SFT #GRPO

원문 읽기