Hugging Face BlogAI-MO가 DeepSeek-R1 스타일의 reasoning-then-generation 파이프라인을 Lean 4 정리 증명에 적용해 1.7B 모델에서 76.63% Pass@32 달성Kimina-Prover-RLAI/MLadvanced19 분 소요2025년 8월 14일
Hugging Face BlogHugging Face가 언어 모델을 인간 피드백으로 직접 최적화하는 RLHF 3단계 파이프라인을 체계화해 ChatGPT 같은 정렬된 모델 개발의 기술적 기초 제시Illustrating Reinforcement Learning from Human Feedback (RLHF)AI/MLintermediate41 분 소요2022년 12월 9일