0.3ms의 오버헤드로 구현한 AI Agent 독립 검증용 Cryptographic Receipt 시스템

Prompt guardrails protect the developer. Who protects the end user?

Aniketh2026년 4월 17일7분advanced

AI 요약

Context

기존 LLM Guardrails는 운영자 시스템 내부에 증거가 저장되어 데이터 위변조 가능성이 존재함. 특히 헬스케어와 같은 고신뢰 도메인에서 Mutable한 Application Log만으로는 외부 감사자의 독립적 검증 요구사항을 충족하지 못하는 한계 노출.

Ed25519 서명을 통한 Tool Call 단위의 Cryptographic Receipt 생성으로 무결성 보장
이전 Receipt의 SHA-256 해시를 현재 Receipt에 포함하는 Chaining 구조를 통해 실행 순서 및 누락 방지
검증 프로세스를 Vendor 시스템과 완전히 분리하여 OpenSSL과 Python3만으로 독립적 확인이 가능한 탈중앙적 검증 설계
Shadow Mode 운영을 통한 Receipt 데이터 축적 후 Enforcement Mode로 전환하는 점진적 배포 전략 채택
RFC 3161 TSA 도입을 통한 self-reported 타임스탬프의 신뢰성 문제 해결 및 시간적 무결성 확보
AST Analysis 기반의 auto-wrap 기능을 제공하여 기존 코드베이스의 Tool Call 로직에 최소한의 변경으로 증적 생성 로직 주입

실천 포인트

1. 감사 추적이 필수적인 AI 워크플로우에 단순 Log 대신 Immutable한 서명 기반 증적 도입 검토

2. 검증 도구를 Vendor API가 아닌 표준 라이브러리(OpenSSL 등)로 구현하여 검증 독립성 확보

3. Tool Call의 입력/출력뿐 아니라 이전 실행 상태의 해시를 체이닝하여 실행 흐름의 연속성 보장

태그