피드로 돌아가기
Cert-gating every tool call: zero-trust for AI agents
Dev.toDev.to
Security

Taint Tracking 기반 Cert-gating으로 AI Agent Zero-Trust 보안 구현

Cert-gating every tool call: zero-trust for AI agents

1r0nw1ll2026년 4월 10일13advanced

Context

기존 Prompt-level Classifier 기반의 Guardrails 방식은 입력 데이터의 출처를 추적하지 못해 Prompt Injection 공격에 취약한 구조임. 특히 다중 LLM이 공유 워크스페이스에서 협업하는 환경에서는 단순한 Allowlist나 System Prompt만으로 세밀한 권한 제어와 격리를 달성하는 데 한계가 있음.

Technical Solution

  • 모든 Tool 호출을 enforce_policy 단일 함수로 강제하는 Security Kernel 아키텍처 설계
  • 입력값의 출처, 참조, 오염 상태, 타임스탬프를 포함하는 Provenance-tagged Value(pv()) 도입
  • 외부 소스 데이터는 TAINTED로, 커널 및 사용자 데이터는 TRUSTED로 구분하는 Taint Tracking 메커니즘 적용
  • TAINTED 데이터가 변환을 거쳐도 TRUSTED로 변경될 수 없는 불변성을 통해 데이터 오염 전파 차단
  • JSON Schema 기반의 Strict Validation을 적용하여 additionalProperties: false 설정으로 예기치 못한 필드 주입 방지
  • 검증 완료 시 Tool 이름, 인자, Provenance Chain, Merkle Trace를 포함한 암호화된 TOOL_CALL_CERT 발행

- AI Agent의 도구 실행 권한을 '기능 단위'가 아닌 '컨텍스트(출처, 시간, 예산) 단위'로 세분화했는지 검토 - Prompt 기반 필터링 대신 데이터 흐름의 Provenance를 추적하는 Taint Analysis 도입 고려 - 보안 감사 및 사고 분석을 위해 모든 도구 호출 이력을 변조 불가능한 Merkle Trace 형태로 저장하는 구조 설계

원문 읽기