Policy Gradient 기반 Reward-Bias 업데이트를 통한 행동 최적화 구현

Understanding Reinforcement Learning with Neural Networks Part 5: Connecting Reward, Derivative, and Step Size

Rijul Rajesh2026년 5월 15일2분intermediate

AI 요약

Context

상태 입력값에 따른 최적의 행동 선택을 위해 Neural Network 기반의 Reinforcement Learning 구조를 채택함. 단순 확률 기반 선택이 아닌 보상 체계와 미분값을 연동하여 행동 확률을 동적으로 조정하는 메커니즘이 필요함.

실천 포인트

1. 보상 신호(Reward)와 그래디언트(Gradient)의 곱을 통해 가중치 업데이트 방향을 결정하는지 확인

2. 입력 상태(State)에 따라 동일한 행동이라도 보상값이 가변적으로 적용되는지 검토

3. Learning Rate가 Step Size와 최종 파라미터 업데이트에 미치는 영향도 분석

태그