Ornith-1.0 - 에이전트형 코딩을 위한 자기 개선 오픈소스 모델
강화학습 기반 Scaffold 최적화로 SWE-bench Verified 82.4% 달성
강화학습 기반 Scaffold 최적화로 SWE-bench Verified 82.4% 달성
Qwen-AgentWorld Trains a Language Model as a World Model for RL Agents: World Model as a Decoupled RL Simulator
RL과 AI 에뮬레이터 기반 RFIC 설계로 시뮬레이션 시간을 ms 단위로 단축
Google OpenRL is an Experimental Self-hosted API for LLM Post-Training Fine-tuning
I Built the First Purely Learned Frame-by-Frame Tetris AI: Then It Started Cheating
Stop Benchmarking AI Coding Agents on Todo Apps. Make Them Build an MMO.
Sakana AI's Fugu Explained: How the Multi-Agent Model Orchestrates Frontier LLMs
현대차, Boston Dynamics 지분 100% 확보 통한 2028년 공장 내 Atlas 투입 전략
분산형 에이전트 경제 모델 및 자율 연구 시스템을 통한 지능 창발과 성능 최적화
[System Design] Ride-Hailing Dispatch Algorithm: How Uber DISCO & Grab DispatchGym Match Drivers
단순 모방 LLM을 넘어 RL 기반 변이-평가-보존 루프로 구현하는 AI 창의성 설계
Rich Sutton on AI creativity and discovery
Agentic AI in Telecommunications: The Next Evolution of Network Management
에이전트 상태 외부화 및 가중치 컴파일을 통한 LLM 추론 효율 극대화
Ineffable Intelligence -- RL ASI
MAI-Thinking-1: Microsoft's New Reasoning Model and What It Means for Developers
War Games, Neural Networks
Best AI Trading Agents in 2026: Can They Really Deliver Consistent Returns?
Building a Card Game AI with Reinforcement Learning — Implementation Details#2
Understanding Reinforcement Learning with Human Feedback Part 6: How the Reward Model Trains the Original Model