Deep Reinforcement Learning 팀이 Policy-Based 방식의 높은 분산 문제를 Actor-Critic 하이브리드 구조로 해결해 학습 속도 및 안정성 향상

Advantage Actor Critic (A2C)

2022년 7월 22일10분intermediate

AI 요약

Context

Reinforce 알고리즘은 정책 기반 방식으로 Monte-Carlo 샘플링을 통해 전체 에피소드의 리턴을 계산하는데, 환경과 정책의 확률성으로 인해 동일한 시작 상태에서도 에피소드마다 반환값이 크게 달라져 높은 분산을 발생시킨다. 이를 완화하려면 배치 크기를 크게 늘려야 하는데, 이는 샘플 효율성을 크게 저하시킨다.

Technical Solution

정책 기반(Actor)과 가치 기반(Critic) 방식을 결합한 Actor-Critic 하이브리드 아키텍처 도입
Actor: π_θ(s,a) 정책 함수로 에이전트 행동 제어
Critic: q̂_w(s,a) 가치 함수로 실행된 행동의 품질 측정
Advantage 함수 A(s,a)를 통해 정책 그래디언트 계산: 예상값 대비 추가 보상을 기준으로 그래디언트 방향 결정
TD(Temporal Difference) 에러를 Advantage 함수의 추정치로 사용해 Q(s,a)와 V(s) 두 개의 가치 함수 필요성 제거

Key Takeaway

Actor-Critic 방식은 정책 기반 방법의 unbiased 특성을 유지하면서 가치 기반 방법의 분산 감소 메커니즘을 결합해, 배치 크기 증가 없이 학습 안정성을 높이는 하이브리드 설계 패턴이다.

실천 포인트

강화학습 에이전트 개발 시 정책 그래디언트 방식에서 높은 분산으로 인한 느린 수렴 문제가 발생하면, Actor-Critic 구조를 도입해 Critic 네트워크가 각 행동의 상대적 가치를 평가하도록 하면 정책 업데이트의 분산을 감소시켜 더 적은 샘플로 안정적인 학습이 가능해진다.

태그

#Variance Reduction #Reinforcement Learning #Actor-Critic #Policy Gradient

원문 읽기