피드로 돌아가기
Model Output Is Not Authority: Action Assurance for AI Agents
Dev.toDev.to
Security

Model Output Is Not Authority: AI Agent Action Assurance 아키텍처

Model Output Is Not Authority: Action Assurance for AI Agents

Kazuma Horishita2026년 4월 25일9intermediate

Context

LLM의 출력을 즉시 Tool Call로 연결하는 기존 구조는 Prompt Injection에 취약하며 모델 출력물을 권한(Authority)으로 오인하는 설계 결함을 보유함. 이로 인해 외부 입력값에 의한 무단 데이터 유출 및 시스템 설정 변경 등의 보안 리스크가 상존함.

Technical Solution

  • Model output과 Tool execution 사이에 명시적인 Authorization Boundary를 삽입한 분리 구조 설계
  • Agent ID, Principal ID, Authority Scope 등 신뢰할 수 있는 컨텍스트 기반의 권한 검증 로직 구현
  • 리스크 수준에 따른 분류(Classify Risk)를 통해 고위험 작업 시 Human-in-the-loop 승인 절차 강제
  • 자연어 기반의 승인 요청을 배제하고 Trusted Policy Engine 및 Workflow State를 통한 권한 확인
  • 모든 실행 단계의 Decision, Result, Context를 기록하는 Evidence Recording 메커니즘 구축
  • Principal Context Degradation 문제를 해결하기 위한 실행 시점의 의도-동작 일치성 검토

- LLM 출력값을 API 파라미터로 직접 전달하는 로직 제거 - Tool Call 직전 단계에 Principal, Resource, Purpose를 검증하는 Authorize 함수 배치 - 고위험 API 호출 시 Human Approval 단계를 거치는 인터셉터 구현 - Agent의 모든 액션에 대해 감사 추적(Audit Trail)을 위한 Evidence 로그 설계

원문 읽기