Imperfect Information 극복을 통한 다중 룰 마작 AI 엔진 구현 및 학습 비용 40% 절감

Why Mahjong AI is 10x Harder Than Go AI (And What We Learned Building One)

NanMing2026년 4월 15일5분advanced

AI 요약

Context

Perfect Information 기반의 Go AI 아키텍처를 Mahjong에 적용하려 했으나, 약 70%의 정보 은닉과 200여 가지의 룰 변형으로 인해 기존 MCTS 방식의 시뮬레이션 불가능 확인.

MCTS를 대체하여 관찰 가능한 신호로 숨겨진 정보를 추론하는 LSTM 네트워크 도입
공통 기술 학습을 위한 Shared Base Model과 룰별 특화 Adapter Layer를 분리한 하이브리드 구조 설계
4인 다자간 일반 합 게임(General-sum Game) 최적화를 위해 Deep Monte Carlo(DMC) 기반 Self-play 학습 수행
보상 신호 희소성 해결을 위해 Hand Efficiency 및 방어 성공률 등 Auxiliary Reward Signal 체계 구축
무작위성으로 인한 통계적 유의성 확보를 위해 수만 판의 게임 데이터를 통한 평가 파이프라인 구성

실천 포인트

1. 정보가 불완전한 환경에서 State Simulation이 불가능할 경우 Tree Search 대신 추론 모델(LSTM/Transformer) 검토

2. 유사한 다수 모델 학습 시 Base-Adapter 구조를 통한 Compute Resource 최적화 적용

3. Sparse Reward 문제 해결을 위해 최종 결과 외에 중간 단계의 정량적 지표를 Auxiliary Reward로 정의

태그