Hugging Face TRL 라이브러리가 Group Relative Policy Optimization(GRPO) 알고리즘을 구현해 강화학습 기반 LLM 추론 능력 향상을 DeepSeek R1 재현 수준으로 실현
Mini-R1: Reproduce Deepseek R1 „aha moment“ a RL tutorial
Mini-R1: Reproduce Deepseek R1 „aha moment“ a RL tutorial
StackLLaMA: A hands-on guide to train LLaMA with RLHF