Causal RL 기반 GNN 구조로 추천 시스템의 Popularity Bias 제거

Debiasing Graph Neural Networks for Recommendation with Causal RL

Tasfin Mahmud2026년 5월 23일3분advanced

AI 요약

Context

LightGCN, NGCF 등 기존 GNN 기반 추천 시스템이 노출 편향이 포함된 관측 데이터만을 학습하여 인기 아이템만 추천하는 Feedback Loop 발생. 데이터셋 내의 Observational Bias로 인해 틈새 아이템이 배제되는 구조적 한계 노출.

BPR Training Loss에 Inverse Propensity Scoring(IPS)을 적용하여 노출 확률의 역수로 가중치를 부여함으로써 희귀 아이템의 Gradient Signal 강화
Factual Space와 Counterfactual Space를 분리한 Causal Embeddings(CausE) 설계를 통한 Exposure Distribution 오버피팅 방지
REINFORCE 알고리즘 기반 Causal Policy Gradient 도입 및 Doubly Robust(DR) 추정을 통한 로그 데이터 학습 안정성 확보
Causal Reward Shaping을 통해 관찰된 보상을 실제 선호도(Causal)와 인기 편향(Confounding) 성분으로 분해하여 최적화
Exposure Matrix에 Truncated SVD를 적용한 Causal Discovery 모듈로 잠재적 교란 요인을 자동 식별하여 Reward Shaping에 통합

실천 포인트

1. 추천 모델의 성능 지표가 높음에도 특정 인기 아이템으로 쏠림 현상이 있는지 노출 분포 분석

2. 단순 Loss 최적화 대신 IPS를 통한 샘플 가중치 조절 검토

3. 사용자 피드백을 보상으로 처리할 때 인기 요인을 분리하는 Reward Shaping 적용 고려

4. 모델 평가 시 Observational Data가 아닌 Unbiased Logging Data 확보 및 검증 수행

태그