피드로 돌아가기
Dev.toSecurity
원문 읽기
LLM의 치명적 맹점, Indirect Prompt Injection 보안 위협 분석
The Trusted Document Problem: Why Indirect Prompt Injection Is Now Your AI Agent's #1 Security Risk
AI 요약
Context
LLM 에이전트가 외부 문서를 처리하는 과정에서 신뢰할 수 없는 명령어를 실행하는 보안 결함 발생. 시스템 프롬프트와 외부 콘텐츠 내 명령어를 구분하지 못하는 LLM의 구조적 한계. 에이전트의 도구 접근 권한이 공격자의 데이터 유출 경로로 악용되는 상황.
Technical Solution
- 외부 문서, 이메일, 웹 페이지 등 에이전트가 처리하는 모든 외부 콘텐츠를 공격 벡터로 정의
- HTML 태그 내 다국어 노이즈를 삽입하여 기존 LLM 기반 이메일 분류기를 우회하는 은닉 기법 활용
- API 키와 대화 로그를 포함한 URL을 생성하고 외부 메시징 앱으로 전송하는 데이터 유출 로직 실행
- 코드 실행 취약점이나 CVE 없이 에이전트의 정상적인 API 접근 및 URL 생성 기능만으로 공격 수행
- 사용자 상호작용 없이 링크 프리뷰 생성 메커니즘을 통해 자동으로 정보를 탈취하는 비대면 공격 구조
Impact
- 2025년 엔터프라이즈 Prompt Injection 공격의 80% 이상이 Indirect 방식
- 2025년 4분기 Prompt Injection 시도 건수 전년 대비 약 340% 증가
- 성공한 공격의 67%가 72시간 이상 탐지되지 않음
- OpenClaw AI 에이전트의 취약한 인스턴스 21,000개 이상 노출
- 프로덕션 AI 배포 환경의 73%에서 Prompt Injection 약점 발견 및 34.7%만 전용 방어 체계 구축
Key Takeaway
LLM에게 부여된 도구 사용 권한은 곧 공격자의 권한과 동일하므로, 데이터 평면과 제어 평면을 엄격히 분리하는 설계 원칙이 필수적임.
실천 포인트
에이전트가 처리하는 외부 콘텐츠를 '신뢰할 수 없는 데이터'로 간주하고, API 호출 전 반드시 인간의 승인을 거치는 Human-in-the-loop 구조를 도입할 것