전체 피드 소스 목록

카테고리

Frontend Backend DevOps AI/ML Mobile Database Security Career Infrastructure

© 2026 DevPick

#reinforcementlearning

피드 검색 북마크 설정

Hugging Face Blog

AI-MO가 DeepSeek-R1 스타일의 reasoning-then-generation 파이프라인을 Lean 4 정리 증명에 적용해 1.7B 모델에서 76.63% Pass@32 달성

Kimina-Prover-RL

AI/MLadvanced19 분 소요2025년 8월 14일

Hugging Face Blog

Hugging Face가 언어 모델을 인간 피드백으로 직접 최적화하는 RLHF 3단계 파이프라인을 체계화해 ChatGPT 같은 정렬된 모델 개발의 기술적 기초 제시

Illustrating Reinforcement Learning from Human Feedback (RLHF)

AI/MLintermediate41 분 소요2022년 12월 9일