GAN과 Actor-Critic의 결합, 생성 모델의 보상 최적화 전략

Connecting Generative Adversarial Networks and Actor-Critic Methods

Paperium2026년 4월 6일1분advanced

AI 요약

Context

GAN의 Generator가 단순한 데이터 모방을 넘어 특정 목적 함수를 최적화해야 하는 한계. Actor-Critic 구조를 통한 정교한 보상 체계 및 정책 학습의 필요성.

Actor-Critic 프레임워크를 GAN 구조에 통합하여 생성자의 학습 방향을 결정하는 강화학습 메커니즘 도입
Generator를 Actor로 설정하여 상태에 따른 최적의 데이터 생성 정책을 학습하는 구조
Discriminator를 Critic의 기초로 활용하여 생성된 샘플의 품질을 평가하고 가치 함수를 추정하는 방식
정책 경사(Policy Gradient) 기법을 적용해 Discriminator의 피드백을 생성자의 가중치 업데이트로 연결하는 최적화 경로 설계
보상 신호의 분산을 줄이기 위해 Baseline을 도입하여 학습 안정성을 높인 아키텍처

생성 모델의 목적 함수가 복잡할 때 강화학습의 가치 평가 구조를 결합하여 학습의 수렴 속도와 품질을 동시에 개선하는 설계 전략.

실천 포인트

단순 분류기 기반의 GAN 학습이 정체될 때, Actor-Critic 기반의 보상 함수를 설계하여 생성자의 탐색 범위를 확장할 것

태그