피드로 돌아가기
I built a kill switch for runaway AI agents — Cost Firewall is MIT
Dev.toDev.to
AI/ML

실시간 메타데이터 분석 기반 AI 비용 킬스위치 Cost Firewall 설계

I built a kill switch for runaway AI agents — Cost Firewall is MIT

sun evan2026년 5월 13일2intermediate

Context

AI Gateway의 단순 라우팅 기능과 Observability 툴의 사후 분석 한계로 인한 비용 통제 불능 상태 발생. 특히 AI Agent의 Retry Loop 발생 시 실시간 차단 수단 부재로 인한 과도한 크레딧 소모 문제 직면.

Technical Solution

  • OpenClaw Gateway 내 Local Plugin 형태로 설계하여 호출 시점과 결제 시점 사이의 간극 제거
  • Retry Loop, Token Storm, Call Flood, Daily Budget Cap 등 4가지 핵심 시그널 기반의 실시간 트리거 로직 구현
  • 개별 Source 독립 추적 설계를 통한 특정 Agent의 이상 동작이 전체 시스템에 미치는 영향 최소화
  • Observe(기록)와 Protect(차단)의 2단계 워크플로우를 통해 트래픽 패턴 분석 후 임계치 최적화 유도
  • Local JSONL 저장 및 Default storePromptText: false 설정을 통한 데이터 프라이버시 확보 및 런타임 오버헤드 감소

1. AI Agent 도입 시 무한 루프 방지를 위한 최대 재시도 횟수 및 쿨다운 기간 설정 검토

2. 실시간 토큰 사용량 기반의 전역/개별 차단 임계치(Threshold) 수립

3. Observability 툴의 사후 분석과 별개로 런타임 수준의 비용 제어 레이어(Brake) 구축 고려

4. 관찰 모드(Observe)를 통한 실제 트래픽 패턴 분석 후 차단 정책 적용

원문 읽기