피드로 돌아가기
Dev.toAI/ML
원문 읽기
Policy Gradient 기반 Reward-Bias 업데이트를 통한 행동 최적화 구현
Understanding Reinforcement Learning with Neural Networks Part 5: Connecting Reward, Derivative, and Step Size
AI 요약
Context
상태 입력값에 따른 최적의 행동 선택을 위해 Neural Network 기반의 Reinforcement Learning 구조를 채택함. 단순 확률 기반 선택이 아닌 보상 체계와 미분값을 연동하여 행동 확률을 동적으로 조정하는 메커니즘이 필요함.
Technical Solution
- Learning Rate 1.0 설정을 통한 초기 Step Size 0.5 산출 및 Bias 업데이트 로직 구현
- 선택한 행동의 Ideal Value(1.0)와 Actual Value(0.4) 간의 차이를 이용한 Gradient 계산
- Hunger 입력값(0.0)에 따른 Reward -1 할당으로 행동의 적절성 판별
- Derivative에 Reward를 곱한 값(0.6)을 반영하여 Bias를 재수정하는 피드백 루프 설계
- 업데이트된 Bias를 통해 낮은 허기 상태에서 Place A 선택 확률을 높이는 Policy Gradient 최적화 수행
실천 포인트
1. 보상 신호(Reward)와 그래디언트(Gradient)의 곱을 통해 가중치 업데이트 방향을 결정하는지 확인
2. 입력 상태(State)에 따라 동일한 행동이라도 보상값이 가변적으로 적용되는지 검토
3. Learning Rate가 Step Size와 최종 파라미터 업데이트에 미치는 영향도 분석