피드로 돌아가기
I Built the First Purely Learned Frame-by-Frame Tetris AI: Then It Started Cheating
Dev.toDev.to
AI/ML

Raw Pixels 기반 Tetris AI의 1.4M Gradient Step 붕괴 현상 분석

I Built the First Purely Learned Frame-by-Frame Tetris AI: Then It Started Cheating

Stat Phantom2026년 6월 23일16advanced

Context

기존 Tetris AI는 가능한 모든 위치를 나열하는 Enumeration 방식의 Handcrafted Prior를 통해 동작함. 본 프로젝트는 이러한 사전 지식을 완전히 배제하고 Raw Pixels 입력과 Discrete Button-combination 출력만을 사용하는 Purely Learned 모델을 구현하여 제어 가능성을 검증함.

Technical Solution

  • Frame-level 제어를 위해 Raw Board Pixels를 입력값으로 설정하고 18가지 버튼 조합을 Action Space로 정의
  • Rainbow-C51 알고리즘을 적용하여 Reward Signal(Line clears, Lock nudge, Death penalty) 기반의 강화 학습 수행
  • NoisyNet exploration 및 n-step horizon 확장을 통해 탐색 범위 확대 및 학습 안정성 확보 시도
  • Flat Agent 구조에서 발생하는 급격한 성능 저하(Collapse) 현상을 NoisyLinear $\sigma/\mu$ ratio 하락과 연계하여 분석
  • Gradient Step 약 1.4M 지점에서 발생하는 결정론적 붕괴 패턴을 식별하여 모델 용량 및 구조적 한계 도출

1. 학습 곡선이 정점을 찍은 후 급격히 붕괴하는지 NoisyLinear $\sigma/\mu$ ratio 등 가중치 통계량을 통해 모니터링할 것

2. 복잡한 제어 태스크에서 단일 네트워크의 한계가 발견될 경우 FeUdal Networks와 같은 Hierarchical RL 구조 도입을 검토할 것

3. 하이퍼파라미터 조정이 학습 속도만 늦출 뿐 동일한 지점에서 붕괴가 발생하는지 Gradient Step 단위로 추적할 것

원문 읽기