피드로 돌아가기
I Tested a Real AI Agent for Security. The LLM Knew It Was Dangerous — But the Tool Layer Executed Anyway.
Dev.toDev.to
Security

LLM이 공격을 인지해도 뚫리는 AI Agent Tool Layer 보안 갭

I Tested a Real AI Agent for Security. The LLM Knew It Was Dangerous — But the Tool Layer Executed Anyway.

Claude2026년 4월 4일4intermediate

Context

대부분의 AI Agent 보안 테스트가 LLM의 프롬프트 주입 방어력에만 집중하는 구조. LLM의 판단 이후 실제 도구가 실행되는 단계에서의 입력값 검증 부재. 모델이 위험을 인지하고 경고를 보냄과 동시에 도구 레이어는 악성 쿼리를 그대로 실행하는 설계 결함.

Technical Solution

  • LangGraph ReAct 프레임워크와 llama-3.3-70b 모델을 결합한 실환경 에이전트 타겟 설정
  • agent-probe 도구를 통한 SQL Injection 및 Path Traversal 공격 벡터 검증
  • LLM의 응답 메시지와 실제 Tool Argument 전달 과정 사이의 불일치 지점 식별
  • OWASP ASI-04(Tool & Function Misuse) 및 ASI-06(Excessive Autonomy) 기준의 취약점 분석
  • Base64, URL-encoding 등 인코딩된 SQL 주입 및 SSRF 공격을 탐지하는 input_validation 카테고리 구현
  • SARIF 출력 포맷 지원을 통한 CI/CD 파이프라인 및 GitHub Security 탭 통합 구조

Impact

  • LLM 레벨 보안 테스트 20개 항목 중 18개 통과(92/100) 달성
  • 모델 판단 후 도구 실행까지 발생하는 약 200ms의 무검증 신뢰 윈도우 발견

Key Takeaway

AI Agent 보안의 핵심은 LLM의 지능적 방어력이 아닌 모델의 출력값과 도구 실행부 사이의 엄격한 입력값 검증 및 샌드박스 설계에 있음.


LLM의 판단 결과와 상관없이 Tool Layer 진입 전 단계에서 입력값 Sanitization 및 권한 검증 로직을 반드시 구현할 것

원문 읽기