Stochastic Eval 도입을 통한 Snake AI의 Bimodal Trap 해결 및 p25 점수 2점에서 59점으로 개선

When Chaos Wins: Adding Noise Improved My Snake AI's Stability

Stat Phantom2026년 5월 17일5분advanced

AI 요약

Context

Rainbow DQN 기반 Snake AI에서 Noisy Networks를 사용해 Exploration을 최적화함. 통상적인 ML 관습에 따라 Evaluation 단계에서 Noise를 제거한 Deterministic Policy를 적용했으나, Training Score와 상충하는 심각한 성능 저하 및 불안정성이 발견됨.

Technical Solution

Deterministic Policy 적용 시 특정 Game State에서 Q-value가 유사한 Action 간의 고착 현상인 Bimodal Trap 발생 확인
Noise 제거로 인해 Agent가 최적이 아닌 특정 Action을 반복 선택하며 Dead-end에 진입하는 결정론적 실패 경로 형성
Evaluation 단계에서도 Noisy Network의 Sigma 파라미터를 유지하는 Stochastic Eval 전략 채택
학습된 Noise가 Q-value에 미세한 Perturbation을 제공하여 결정론적 루프를 탈출시키는 Load-bearing 메커니즘 구현
State Dynamics가 가혹한 Snake 환경 특성상 Noise를 통한 Action 다양성 확보가 생존율에 직결됨을 증명

Impact

p25 Score: 2점(Deterministic) $\rightarrow$ 59점(Stochastic)으로 급증
Average Score: 59점 $\rightarrow$ 73점으로 상승
Standard Deviation: 42 $\rightarrow$ 26으로 감소하며 시스템 안정성 확보

Key Takeaway

Noisy Networks에서 Noise는 단순 학습 도구가 아닌 Policy의 일부로 기능할 수 있으며, 환경의 제약이 강할수록 Deterministic Eval이 실제 성능을 왜곡할 가능성이 높음.

실천 포인트

- Noisy Networks 적용 시 Deterministic/Stochastic Eval 두 버전을 모두 측정하여 성능 괴리 여부 확인 - 특정 State에서 Agent가 반복적인 실패 루프에 빠지는 Bimodal Distribution 양상을 보이는지 분석 - 환경의 State Dynamics가 치명적인 실수에 민감한 경우, 적정 수준의 Noise 유지가 추론 안정성에 기여하는지 검토

태그

#Noisy Networks #Rainbow DQN #Stochastic Evaluation #Q-Learning #Bimodal Distribution

원문 읽기