AgentLock이 권한 레이어에 DEFER, STEP_UP, MODIFY 기능을 추가해 모델 변경 없이 AI 에이전트 보안 점수를 30.2%에서 81.3%로 3배 향상
How We Tripled an AI Agent's Security Score Without Changing the Model
AI 요약
Context
AI 에이전트가 유효한 관리자 권한을 보유한 상태에서 프롬프트 인젝션, 컨텍스트 오염, 사회공학적 공격에 취약한 기존 구조를 확인했습니다. 182개의 적대적 공격 테스트에서 30.2%의 차단율을 기록했으며, 툴 남용, 툴 체인 공격, 멀티 에이전트 혼란, 페르소나 하이재킹, 공급망 공격 카테고리는 0% 차단율을 보였습니다. 이 문제는 에이전트가 권한을 오용하도록 속이는 confused deputy problem입니다.
Technical Solution
- DEFER: 컨텍스트가 모호하거나 첫 번째 High-Risk 도구 호출 시 세션 실행을 일시 중단하고 타임아웃 시 자동 거부
- STEP_UP: 세션 리스크가 상승하고 High/Critical 도구 사용 시 human approval를 요청하여 다중 도구 에스컬레이션 패턴을 감지
- MODIFY: 도구 출력의 PII를 삭제하거나 도구 매개변수를 제한하여 민감 데이터가 모델 컨텍스트에 도달하지 않도록 변환
- Pre-LLM Prompt Scanning: 4가지 신호 탐지기(Velocity, Combos, Echo, Prompt scan)로 LLM 처리 전 입력 메시지를 분석하고 공격 유형별 방어적 지시사항을 선행 적용
Impact
v1.2.0 전체 스택 적용 후 30.2%(F)에서 81.3%(B)로 향상되었습니다. 공격 차단가 55건에서 148건으로 증가했으며, 툴 남용 0%에서 75%, 툴 체인 공격 0%에서 60%, 페르소나 하이재킹 0%에서 100%, 멀티 에이전트 혼란 0%에서 100%로 개선되었습니다. 나머지 34건의 실패에서도 PII 유출은 0건이었습니다.
Key Takeaway
인증과 역할 검사만으로는 유효한 권한 세션 내 공격을 막을 수 없습니다. DEFER, STEP_UP, MODIFY 같은 세분화된 인가 결정을 권한 레이어에 구현하면 모델 변경 없이도 보안 점수를 크게 향상시킬 수 있습니다.
실천 포인트
AI 에이전트 보안에서 권한 유효화 후 도구 실행 전 모호한 컨텍스트는 DEFER로 중단하고, High-Risk 도구 호출 시 STEP_UP으로 Human approval를 요청하며, 도구 출력의 민감 데이터는 MODIFY로 사전 삭제하면 권한 있는 공격 시나리오에서 보안 효과 극대화