Model Output Is Not Authority: AI Agent Action Assurance 아키텍처

Model Output Is Not Authority: Action Assurance for AI Agents

Kazuma Horishita2026년 4월 25일9분intermediate

AI 요약

Context

LLM의 출력을 즉시 Tool Call로 연결하는 기존 구조는 Prompt Injection에 취약하며 모델 출력물을 권한(Authority)으로 오인하는 설계 결함을 보유함. 이로 인해 외부 입력값에 의한 무단 데이터 유출 및 시스템 설정 변경 등의 보안 리스크가 상존함.

Technical Solution

Model output과 Tool execution 사이에 명시적인 Authorization Boundary를 삽입한 분리 구조 설계
Agent ID, Principal ID, Authority Scope 등 신뢰할 수 있는 컨텍스트 기반의 권한 검증 로직 구현
리스크 수준에 따른 분류(Classify Risk)를 통해 고위험 작업 시 Human-in-the-loop 승인 절차 강제
자연어 기반의 승인 요청을 배제하고 Trusted Policy Engine 및 Workflow State를 통한 권한 확인
모든 실행 단계의 Decision, Result, Context를 기록하는 Evidence Recording 메커니즘 구축
Principal Context Degradation 문제를 해결하기 위한 실행 시점의 의도-동작 일치성 검토

실천 포인트

- LLM 출력값을 API 파라미터로 직접 전달하는 로직 제거 - Tool Call 직전 단계에 Principal, Resource, Purpose를 검증하는 Authorize 함수 배치 - 고위험 API 호출 시 Human Approval 단계를 거치는 인터셉터 구현 - Agent의 모든 액션에 대해 감사 추적(Audit Trail)을 위한 Evidence 로그 설계

태그

#AI Agent #Action Assurance #Prompt Injection #Authorization Boundary #AAEF

원문 읽기