피드로 돌아가기
Show GN: civStation – Civilization VI를 전략 수준에서 제어하는 computer-use VLM 기반 에이전트(Human in the...
GeekNewsGeekNews
AI/ML

Show GN: civStation – Civilization VI를 전략 수준에서 제어하는 computer-use VLM 기반 에이전트(Human in the...

civStation이 computer-use VLM 기반 에이전트로 Civilization VI의 전략적 의사결정을 자연어 명령으로 실시간 제어한다

ironman07222026년 3월 31일1advanced

Context

기존 RL/IL/스크립트 기반 게임 AI는 고정된 정책으로 확장성과 유연성에 한계가 있었다. 자연어 명령을 게임 조작으로 변환하는 명시적 인터페이스가 부재했다.

Technical Solution

  • Strategy Layer → 자연어 의도를 구조화된 목표로 변환하고 장기 전략을 유지하며 task를 분해한다
  • Action Layer → VLM 기반 화면 인식으로 게임 상태를 파악하고 마우스/키보드로 직접 조작을 실행한다
  • HITL Layer → 실시간 개입/수정/중단을 통해 실행 품질을 인간이 통제하는 구조를 제공한다
  • 서브에이전트가 도시 관리, 유닛 이동 등 bounded task 단위로 분산 실행한다
  • 하나의 전략이 2~16회의 모델 호출로 여러 action sequence로 분해된다

Impact

UI-only 환경에서 에이전트 제어 및 검증이라는 새로운 문제 영역을 제시했다

Key Takeaway

게임 플레이 자체보다 인간-시스템 인터페이스를 전략 레벨로 확장하는 접근 방식에 가치가 있다


복잡한 환경에서 VLM 기반 에이전트를 운영할 때 HITL 구조를 적용하면 자율성과 통제력의 균형을 확보할 수 있다

원문 읽기