피드로 돌아가기
Securing LLM Agent Teams: Inside NRT-Defense v0.4.0
Dev.toDev.to
Security

Multi-turn 공격 성공률을 12.1%에서 1% 미만으로 낮춘 NRT-Defense 프레임워크

Securing LLM Agent Teams: Inside NRT-Defense v0.4.0

Fenix2026년 6월 20일2advanced

Context

기존 Guardrails의 단일 턴 분석 방식에 따른 Context Drift 취약점 발생. 공격자가 여러 턴에 걸쳐 취약점을 분산 배치함으로써 Safety Containment를 우회하는 구조적 한계 노출.

Technical Solution

  • Per-Turn Message Analysis를 통한 채널별 위험 가중치 및 턴 에스컬레이션 지표 실시간 평가
  • 6개의 Critical Safety Functions(CSFs)에 대한 상태 추적으로 턴 누적 위험도 기반의 임계치 알림 체계 구축
  • 단순 거절 시 공격자에게 정보를 제공하는 문제를 해결하기 위한 Context-Aware Misdirection Prompt Engineering(CMPE) 도입
  • Semantic Noise Injection을 포함한 Preamble-Reshaping-Follow-up 3단계 매트릭스로 대화 흐름의 동적 재구성
  • 모델 간 취약점이 서로 겹치지 않는 Disjoint 특성을 활용한 모델 다양성 확보 전략 적용

Impact

  • Multi-turn 공격 성공률(ASR)을 기존 8.7%~12.1% 수준에서 1% 미만으로 획기적 감소
  • 4종의 Frontier LLMs 및 149개 세션 분석을 통해 검증된 방어 성능 확보

Key Takeaway

상태 유지(Stateful) 성격의 LLM 에이전트 보안은 개별 입력값 검증이 아닌 세션 전체의 Context 흐름과 상태 전이를 모니터링하는 파이프라인 설계가 필수적임.


- LLM Guardrail 설계 시 Single-turn 검증을 넘어 세션 단위의 누적 위험도 측정 로직 반영 여부 검토 - 보안 위협 탐지 시 즉각적인 차단 대신 세션을 안전한 방향으로 유도하는 Misdirection 전략 고려 - 단일 모델 의존도를 낮추고 모델 다양성을 확보하여 Disjoint Vulnerability를 이용한 공격 경로 차단

원문 읽기