피드로 돌아가기
Dev.toAI/ML
원문 읽기
Gradient-free CEM 기반 4개 파라미터로 CartPole-v1 만점 달성
The Cross-Entropy Method: Solving RL Without Gradients
AI 요약
Context
Value functions 및 Policy gradients 등 기존 Reinforcement Learning의 높은 구현 복잡도와 연산 비용 문제 발생. 특히 소규모 파라미터 공간을 가진 제어 작업에서 과도한 아키텍처 설계로 인한 오버헤드 존재.
Technical Solution
- Policy parameters를 Black box로 취급하여 Gaussian distribution으로 관리하는 CEM 아키텍처 채택
- Sample, Evaluate, Refit의 3단계 반복 루프로 Gradient 계산 과정 제거
- 상위 20%의 Elite set을 추출하여 다음 세대의 Mean과 Variance를 갱신하는 Directed Search 수행
- 탐색 공간 조기 수렴 및 Local optimum 방지를 위한 Decay 기반 Extra noise 주입 로직 설계
- Linear policy 구조를 통한 파라미터 최소화로 연산 효율성 극대화
Impact
- 50회 Iteration 만에 Population mean reward 67에서 499로 상승
- 최종 평가 100회 수행 결과 Mean 500 (±0)의 Perfect score 기록
- 단 50라인의 코드로 복잡한 학습 루프 없이 최적 가중치 도출
Key Takeaway
파라미터 공간이 관리 가능한 수준일 때 Gradient 기반 최적화보다 분포 기반의 반복적 샘플링이 더 빠르고 단순한 해결책이 될 수 있음.
실천 포인트
- 최적화 대상 파라미터 수가 적은 경우 Gradient-free 방식의 CEM 도입 검토 - Exploration과 Exploitation 균형을 위해 Elite fraction(기본
0.2) 값 조정 - 초기 탐색 범위 확보를 위해 시간에 따라 감소하는 Noise multiplier 적용