19일간 무인 운영 및 102개 태스크 완수를 통한 AI 에이전트 Supervisor의 자가 치유 검증

I Let an AI Agent Supervisor Run Unattended for 19 Days. Here's What the Telemetry Says.

Batty2026년 4월 16일7분advanced

AI 요약

Context

AI 에이전트의 자율적 소프트웨어 개발 과정에서 발생하는 런타임 정지 및 회귀 버그 제어의 어려움 존재. 단순한 자율 실행을 넘어 시스템 신뢰성을 보장하기 위한 고밀도 Telemetry 체계와 강제적 테스트 게이팅의 필요성 대두.

Technical Solution

Rust 기반 Daemon 구조를 통한 에이전트 실행 환경(tmux panes)의 상태 추적 및 생명 주기 관리
258회의 Auto-doctor 액션을 통한 Shim unresponsive 상태의 자동 감지 및 프로세스 Respawn 구현
FakeShim 및 ShimBehavior를 활용한 In-process Scenario Framework 설계로 Subprocess 생성 없는 결정론적 테스트 환경 구축
프로덕션 Telemetry에서 발견된 실제 버그를 Regression Scenario로 변환하여 PR 단계에서 60ms 내 검증 수행
Proptest-state-machine Fuzz harness를 통한 10가지 교차 서브시스템 불변성(Invariants) 상시 검증
Discord API 연동을 통한 에이전트 해결 불가능 지점의 인간 개입(Escalation) 루프 설계

실천 포인트

- 에이전트 운영 시 상태 복구(Recovery)와 예방(Prevention)을 구분하여 설계했는가 - 프로덕션의 간헐적 장애를 결정론적으로 재현 가능한 Scenario Test로 전환하는 파이프라인이 있는가 - 자가 치유 로직(Self-healing)이 무한 루프에 빠지지 않도록 Cooldown 및 State-check 메커니즘을 적용했는가

태그

#AI Agent #Rust #Regression Testing #Telemetry #Self-Healing

원문 읽기