Second-order Injection을 통한 LLM evaluator 100% 우회 및 검증

48 Hours After Publishing: Second-Order Injection Field Notes

GnomeMan42012026년 4월 23일2분advanced

AI 요약

Context

LLM 기반 Safety Monitor가 공격자의 주입된 지시사항을 신뢰하여 실행하는 Second-order Injection 취약점 발생. 기존 Sanitization 방식으로는 모델 자체의 Blind Spot으로 인한 권한 상승 시퀀스 우회를 완전히 차단하기 어려운 한계 존재.

Technical Solution

Evaluator의 사고 과정을 모방한 Reasoning Capture 기법을 통한 V4 Injection 설계
모델이 생성한 추론과 주입된 추론을 구분하지 못하는 Context 처리 특성 이용
단순 Jailbreak가 아닌 이미 진행 중인 작업의 완성형태로 인식하게 만드는 Task Completion 유도
Meta-evaluator의 False Alarm Rate 감소를 위한 5개 정상 샘플 기반 Baseline Calibration 적용
모델별 저항성 차이 분석을 통한 Prompt Cleaning보다 Model Selection의 우선순위 정립
Mistral 모델의 Privilege Escalation 시퀀스 Blind Spot 식별을 통한 Sanitization 한계 규명

실천 포인트

1. LLM 기반 검증 시스템 설계 시 외부 입력값이 모델의 Internal Reasoning 과정으로 오인될 가능성 검토

2. Sanitization 로직 도입 전 모델 자체의 Blind Spot 및 권한 상승 시퀀스 취약점 우선 분석

3. 다중 모델 평가 시스템 구축 시 모델 간 의견 불일치를 처리하는 Calibration 데이터셋 구성

태그

#Bypass Rate #Reasoning Capture #LLM Evaluator #Meta-evaluator #Second-Order Injection

원문 읽기