피드로 돌아가기
Why Mahjong AI is 10x Harder Than Go AI (And What We Learned Building One)
Dev.toDev.to
AI/ML

Imperfect Information 극복을 통한 다중 룰 마작 AI 엔진 구현 및 학습 비용 40% 절감

Why Mahjong AI is 10x Harder Than Go AI (And What We Learned Building One)

NanMing2026년 4월 15일5advanced

Context

Perfect Information 기반의 Go AI 아키텍처를 Mahjong에 적용하려 했으나, 약 70%의 정보 은닉과 200여 가지의 룰 변형으로 인해 기존 MCTS 방식의 시뮬레이션 불가능 확인.

Technical Solution

  • MCTS를 대체하여 관찰 가능한 신호로 숨겨진 정보를 추론하는 LSTM 네트워크 도입
  • 공통 기술 학습을 위한 Shared Base Model과 룰별 특화 Adapter Layer를 분리한 하이브리드 구조 설계
  • 4인 다자간 일반 합 게임(General-sum Game) 최적화를 위해 Deep Monte Carlo(DMC) 기반 Self-play 학습 수행
  • 보상 신호 희소성 해결을 위해 Hand Efficiency 및 방어 성공률 등 Auxiliary Reward Signal 체계 구축
  • 무작위성으로 인한 통계적 유의성 확보를 위해 수만 판의 게임 데이터를 통한 평가 파이프라인 구성

1. 정보가 불완전한 환경에서 State Simulation이 불가능할 경우 Tree Search 대신 추론 모델(LSTM/Transformer) 검토

2. 유사한 다수 모델 학습 시 Base-Adapter 구조를 통한 Compute Resource 최적화 적용

3. Sparse Reward 문제 해결을 위해 최종 결과 외에 중간 단계의 정량적 지표를 Auxiliary Reward로 정의

원문 읽기