TRL이 16개의 오픈소스 RL 라이브러리를 조사해 동기식 RL 훈련에서 GPU 유휴시간 60%를 해결하기 위한 비동기 아키텍처 설계 원칙 도출
Keep the Tokens Flowing: Lessons from 16 Open-Source RL Libraries
Keep the Tokens Flowing: Lessons from 16 Open-Source RL Libraries
카카오가 Pre-training과 Post-training 사이에 Mid-training 단계를 도입하고 Pre-training 데이터를 50B 토큰 규모로 리플레이해 한국어 성능 저하를 방지하면서 수학 벤치마크 AIME24에서 9.21%에서 53.21%로 성능 향상
Smol2Operator: Post-Training GUI Agents for Computer Use
Open R1: Update #4