피드로 돌아가기
Dev.toAI/ML
원문 읽기
Raw Pixels 기반 Tetris AI의 1.4M Gradient Step 붕괴 현상 분석
I Built the First Purely Learned Frame-by-Frame Tetris AI: Then It Started Cheating
AI 요약
Context
기존 Tetris AI는 가능한 모든 위치를 나열하는 Enumeration 방식의 Handcrafted Prior를 통해 동작함. 본 프로젝트는 이러한 사전 지식을 완전히 배제하고 Raw Pixels 입력과 Discrete Button-combination 출력만을 사용하는 Purely Learned 모델을 구현하여 제어 가능성을 검증함.
Technical Solution
- Frame-level 제어를 위해 Raw Board Pixels를 입력값으로 설정하고 18가지 버튼 조합을 Action Space로 정의
- Rainbow-C51 알고리즘을 적용하여 Reward Signal(Line clears, Lock nudge, Death penalty) 기반의 강화 학습 수행
- NoisyNet exploration 및 n-step horizon 확장을 통해 탐색 범위 확대 및 학습 안정성 확보 시도
- Flat Agent 구조에서 발생하는 급격한 성능 저하(Collapse) 현상을 NoisyLinear $\sigma/\mu$ ratio 하락과 연계하여 분석
- Gradient Step 약 1.4M 지점에서 발생하는 결정론적 붕괴 패턴을 식별하여 모델 용량 및 구조적 한계 도출
실천 포인트
1. 학습 곡선이 정점을 찍은 후 급격히 붕괴하는지 NoisyLinear $\sigma/\mu$ ratio 등 가중치 통계량을 통해 모니터링할 것
2. 복잡한 제어 태스크에서 단일 네트워크의 한계가 발견될 경우 FeUdal Networks와 같은 Hierarchical RL 구조 도입을 검토할 것
3. 하이퍼파라미터 조정이 학습 속도만 늦출 뿐 동일한 지점에서 붕괴가 발생하는지 Gradient Step 단위로 추적할 것