피드로 돌아가기
Qwen-AgentWorld Trains a Language Model as a World Model for RL Agents: World Model as a Decoupled RL Simulator
Dev.toDev.to
AI/ML

LLM 기반 World Model 도입을 통한 RL 에이전트 훈련 가속화 및 Decoupled Simulator 구현

Qwen-AgentWorld Trains a Language Model as a World Model for RL Agents: World Model as a Decoupled RL Simulator

pueding2026년 6월 28일7advanced

Context

실시간 환경과 결합된 기존 RL 훈련 구조는 웹 페이지나 터미널의 응답 대기로 인한 병목 현상 발생. 환경의 느린 처리 속도와 낮은 병렬성으로 인해 대규모 trial-and-error 시도에 막대한 비용과 시간 소요.

Technical Solution

  • World Model 기반 Decoupled Simulator 설계를 통한 환경 의존성 제거
  • (Observation, Action) 입력 시 다음 State를 예측하는 Next-state Prediction 로직 구현
  • 단일 Forward Pass만으로 환경 응답을 모사하여 대규모 Rollout의 병렬 실행 환경 구축
  • Continual Pre-training을 통한 광범위한 World-modeling 능력 확보
  • Supervised Fine-tuning 기반의 명시적인 Next-state-prediction 추론 능력 활성화
  • Hybrid Reward를 적용한 RL 단계 수행으로 실제 환경과의 Simulation Fidelity 최적화

- RL 훈련 시 환경 응답 속도가 병목인 경우 World Model 기반의 시뮬레이터 도입 검토 - 고충실도 시뮬레이션을 위해 실제 데이터와 예측 데이터 간의 오차를 줄이는 Hybrid Reward 설계 적용 - 사전 학습된 World Model을 Foundation Model로 활용하여 다운스트림 에이전트의 Warm-start 성능 개선

원문 읽기