Multi-turn 공격 성공률을 12.1%에서 1% 미만으로 낮춘 NRT-Defense 프레임워크

Securing LLM Agent Teams: Inside NRT-Defense v0.4.0

Fenix2026년 6월 20일2분advanced

AI 요약

Context

기존 Guardrails의 단일 턴 분석 방식에 따른 Context Drift 취약점 발생. 공격자가 여러 턴에 걸쳐 취약점을 분산 배치함으로써 Safety Containment를 우회하는 구조적 한계 노출.

Technical Solution

Per-Turn Message Analysis를 통한 채널별 위험 가중치 및 턴 에스컬레이션 지표 실시간 평가
6개의 Critical Safety Functions(CSFs)에 대한 상태 추적으로 턴 누적 위험도 기반의 임계치 알림 체계 구축
단순 거절 시 공격자에게 정보를 제공하는 문제를 해결하기 위한 Context-Aware Misdirection Prompt Engineering(CMPE) 도입
Semantic Noise Injection을 포함한 Preamble-Reshaping-Follow-up 3단계 매트릭스로 대화 흐름의 동적 재구성
모델 간 취약점이 서로 겹치지 않는 Disjoint 특성을 활용한 모델 다양성 확보 전략 적용

Impact

Multi-turn 공격 성공률(ASR)을 기존 8.7%~12.1% 수준에서 1% 미만으로 획기적 감소
4종의 Frontier LLMs 및 149개 세션 분석을 통해 검증된 방어 성능 확보

Key Takeaway

상태 유지(Stateful) 성격의 LLM 에이전트 보안은 개별 입력값 검증이 아닌 세션 전체의 Context 흐름과 상태 전이를 모니터링하는 파이프라인 설계가 필수적임.

실천 포인트

- LLM Guardrail 설계 시 Single-turn 검증을 넘어 세션 단위의 누적 위험도 측정 로직 반영 여부 검토 - 보안 위협 탐지 시 즉각적인 차단 대신 세션을 안전한 방향으로 유도하는 Misdirection 전략 고려 - 단일 모델 의존도를 낮추고 모델 다양성을 확보하여 Disjoint Vulnerability를 이용한 공격 경로 차단

태그

#Context Drift #Prompt Engineering #LLM Security #Multi-turn Attack #Guardrails

원문 읽기