Taint Tracking 기반 Cert-gating으로 AI Agent Zero-Trust 보안 구현

Cert-gating every tool call: zero-trust for AI agents

1r0nw1ll2026년 4월 10일13분advanced

AI 요약

Context

기존 Prompt-level Classifier 기반의 Guardrails 방식은 입력 데이터의 출처를 추적하지 못해 Prompt Injection 공격에 취약한 구조임. 특히 다중 LLM이 공유 워크스페이스에서 협업하는 환경에서는 단순한 Allowlist나 System Prompt만으로 세밀한 권한 제어와 격리를 달성하는 데 한계가 있음.

Technical Solution

모든 Tool 호출을 enforce_policy 단일 함수로 강제하는 Security Kernel 아키텍처 설계
입력값의 출처, 참조, 오염 상태, 타임스탬프를 포함하는 Provenance-tagged Value(pv()) 도입
외부 소스 데이터는 TAINTED로, 커널 및 사용자 데이터는 TRUSTED로 구분하는 Taint Tracking 메커니즘 적용
TAINTED 데이터가 변환을 거쳐도 TRUSTED로 변경될 수 없는 불변성을 통해 데이터 오염 전파 차단
JSON Schema 기반의 Strict Validation을 적용하여 additionalProperties: false 설정으로 예기치 못한 필드 주입 방지
검증 완료 시 Tool 이름, 인자, Provenance Chain, Merkle Trace를 포함한 암호화된 TOOL_CALL_CERT 발행

실천 포인트

- AI Agent의 도구 실행 권한을 '기능 단위'가 아닌 '컨텍스트(출처, 시간, 예산) 단위'로 세분화했는지 검토 - Prompt 기반 필터링 대신 데이터 흐름의 Provenance를 추적하는 Taint Analysis 도입 고려 - 보안 감사 및 사고 분석을 위해 모든 도구 호출 이력을 변조 불가능한 Merkle Trace 형태로 저장하는 구조 설계

태그

#Security Kernel #Taint Tracking #Provenance #Prompt Injection #Zero Trust

원문 읽기