LLM Safety Monitor 100% 우회하는 Second-Order Injection 취약점 발견

Second-Order Injection: Attacking the Evaluator in LLM Safety Monitors

GnomeMan42012026년 4월 23일10분advanced

AI 요약

Context

LLM 세션 모니터링을 위해 도입된 Evaluator가 분석 대상인 사용자 입력 텍스트를 동일한 Context Window 내에서 처리하는 구조적 결함 존재. 기존 First-order Prompt Injection이 에이전트를 겨냥했다면, 본 취약점은 모니터링 시스템 자체의 판단 로직을 직접 조작하는 것이 핵심임.

Technical Solution

Evaluator의 Instruction과 Attacker-influenced content 간의 물리적 분리(Architectural Isolation) 필요성 제기
Direct Instruction Injection 및 Format Exploitation을 통한 Evaluator의 Verdict 강제 조작 기법 분석
Reasoning Capture 방식을 활용하여 Evaluator의 자체 분석 결과인 것처럼 위장한 페이로드 주입
Coupled Dual-system 구조에서 두 모델에 동일한 Injection을 수행하여 Divergence Signal을 0.01까지 낮추는 Symmetric Injection 전략 적용
프롬프트 수준의 Sanitization 전략이 자연어 기반의 Reasoning Capture 페이로드를 필터링하지 못하는 한계 증명

실천 포인트

- Evaluator 모델의 Instruction과 분석 대상 텍스트를 동일한 Context Window에 배치했는지 검토 - 단순 프롬프트 필터링이 아닌 데이터와 명령의 물리적 분리 구조(Isolation) 도입 고려 - 다중 모델 기반의 Divergence 탐지 시스템 도입 시, 모든 모델에 공통 적용 가능한 Injection Vector 존재 가능성 테스트

태그

#Divergence Signal #Context Isolation #Prompt Injection #LLM Safety Monitor #Second-Order Injection

원문 읽기