Ornith-1.0 - 에이전트형 코딩을 위한 자기 개선 오픈소스 모델
강화학습 기반 Scaffold 최적화로 SWE-bench Verified 82.4% 달성
강화학습 기반 Scaffold 최적화로 SWE-bench Verified 82.4% 달성
Scaling Law 한계 직면 및 Geometric Alignment 중심의 추론 패러다임 전환
에이전트 상태 외부화 및 가중치 컴파일을 통한 LLM 추론 효율 극대화
Latent Agents: A Post-Training Procedure for Internalized Multi-Agent Debate
RLVR 기반 추론 패턴의 강화와 AI 탐지기의 구조적 역설 분석
Targeted RL 기반 Composer 2.5, Opus 4.7급 성능과 1/10 비용 달성
Keep the Tokens Flowing: Lessons from 16 Open-Source RL Libraries
카카오가 Pre-training과 Post-training 사이에 Mid-training 단계를 도입하고 Pre-training 데이터를 50B 토큰 규모로 리플레이해 한국어 성능 저하를 방지하면서 수학 벤치마크 AIME24에서 9.21%에서 53.21%로 성능 향상
Smol2Operator: Post-Training GUI Agents for Computer Use
Open R1: Update #4