Hugging Face BlogHugging Face가 RLOO 알고리즘을 도입해 PPO 대비 GPU 메모리 50-70% 감소 및 2-3배 학습 속도 개선Putting RL back in RLHFAI/MLintermediate34 분 소요2024년 6월 12일
Hugging Face BlogDeep Reinforcement Learning 팀이 정책 업데이트 범위를 [1-ε, 1+ε]로 제한하는 Clipped Surrogate Objective 함수 도입으로 훈련 안정성 개선 및 수렴 확률 향상Proximal Policy Optimization (PPO)AI/MLintermediate26 분 소요2022년 8월 5일