Numpy 기반 Tabular Q-Learning을 통한 Tic Tac Toe 최적 전략 구현

Reinforcement Learning / Q Learning Basics with Tic Tac Toe

Harsh Agnihotri2026년 4월 11일5분beginner

AI 요약

Context

추상화된 라이브러리 없이 RL 기본 원리를 검증하기 위한 기초 설계 단계. 작은 State Space를 가진 Tic Tac Toe 환경에서 Agent의 최적 행동 정책을 학습시키는 구조적 접근 시도.

State Representation 최적화를 위해 보드 상태와 이동 이력을 문자열로 인코딩하여 Q-Table의 Key로 활용하는 설계
Epsilon-greedy 전략을 도입하여 Exploration(무작위 탐색)과 Exploitation(최적 값 활용) 간의 균형 유지
Learning Rate(alpha)와 Discount Factor(gamma)를 적용한 Q-Value 업데이트 공식으로 미래 보상 가치를 현재 상태에 반영
Win(+1), Loss(-1), Invalid Move(-0.2)로 구성된 Reward Shaping을 통해 유효한 수 선택과 승리 가능성 극대화 유도
Self-play 기반의 반복 학습 루프를 통해 별도의 데이터셋 없이 경험 기반의 Lookup Table을 구축하는 아키텍처

실천 포인트

1. State Space가 작은 도메인에서는 Deep Learning 대신 Tabular Q-Learning으로 연산 비용 절감 및 학습 속도 확보 검토

2. Reward Shaping 설계 시 단순 승패 외에 Invalid Move에 대한 페널티를 부여하여 수렴 속도 개선

3. Epsilon Decay 전략을 통해 학습 초기에는 탐색을 강화하고 후기에는 확정적 정책을 사용하도록 설정

태그