피드로 돌아가기
The Cross-Entropy Method: Solving RL Without Gradients
Dev.toDev.to
AI/ML

Gradient-free CEM 기반 4개 파라미터로 CartPole-v1 만점 달성

The Cross-Entropy Method: Solving RL Without Gradients

Berkan Sesen2026년 4월 21일14intermediate

Context

Value functions 및 Policy gradients 등 기존 Reinforcement Learning의 높은 구현 복잡도와 연산 비용 문제 발생. 특히 소규모 파라미터 공간을 가진 제어 작업에서 과도한 아키텍처 설계로 인한 오버헤드 존재.

Technical Solution

  • Policy parameters를 Black box로 취급하여 Gaussian distribution으로 관리하는 CEM 아키텍처 채택
  • Sample, Evaluate, Refit의 3단계 반복 루프로 Gradient 계산 과정 제거
  • 상위 20%의 Elite set을 추출하여 다음 세대의 Mean과 Variance를 갱신하는 Directed Search 수행
  • 탐색 공간 조기 수렴 및 Local optimum 방지를 위한 Decay 기반 Extra noise 주입 로직 설계
  • Linear policy 구조를 통한 파라미터 최소화로 연산 효율성 극대화

Impact

  • 50회 Iteration 만에 Population mean reward 67에서 499로 상승
  • 최종 평가 100회 수행 결과 Mean 500 (±0)의 Perfect score 기록
  • 단 50라인의 코드로 복잡한 학습 루프 없이 최적 가중치 도출

Key Takeaway

파라미터 공간이 관리 가능한 수준일 때 Gradient 기반 최적화보다 분포 기반의 반복적 샘플링이 더 빠르고 단순한 해결책이 될 수 있음.


- 최적화 대상 파라미터 수가 적은 경우 Gradient-free 방식의 CEM 도입 검토 - Exploration과 Exploitation 균형을 위해 Elite fraction(기본

0.2) 값 조정 - 초기 탐색 범위 확보를 위해 시간에 따라 감소하는 Noise multiplier 적용

원문 읽기