Multi-agent Consensus 기반 Prompt Injection 방어: 탐지 정확도 91% 달성

Prompt Injection Is the New SQL Injection: Here's the System We Built to Stop It

Sangamesh Girish Dandin2026년 5월 25일7분advanced

AI 요약

Context

단일 LLM 기반 탐지 시스템의 Decision Boundary 한계로 인한 Adversarial Input 우회 문제 발생. 단순한 Content Filter링으로는 고도화된 Instruction Override 공격을 차단하기 어려운 구조적 제약 존재.

Technical Solution

6단계 Middleware Pipeline 설계를 통한 단계적 필터링 체계 구축
서로 다른 가중치와 Blind Spot을 가진 3종의 LLM(Llama-3.3-70B, Llama-3.1-8B, Qwen3-32B)을 활용한 Consensus Voting 구조 도입
Input Validation 및 Pattern Matching을 전단에 배치하여 불필요한 Inference 비용 절감
각 Agent에 서로 다른 Framing의 Detection Task를 부여하여 탐지 관점의 다각화 구현
Confidence Score 기반의 Fast Mode를 적용하여 저위험 입력값의 Latency 최적화 시도
Response Filtering 단계를 추가하여 Downstream Model의 정보 유출 가능성 원천 차단

실천 포인트

- LLM 보안 계층 설계 시 단일 모델 의존성을 탈피하고 다중 모델 교차 검증 구조 검토 - 전체 파이프라인에 고비용 LLM을 적용하기보다 정적 규칙 기반 필터를 전단에 배치하여 비용 효율성 확보 - 실시간 서비스 적용 시 순차적 호출(Sequential) 대신 asyncio.gather()를 통한 병렬 호출로 Latency 최적화 필요 - Confidence Score의 임계값(예:

0.3~

0.7)을 설정하여 불확실한 경우에만 Full Consensus를 트리거하는 Escalation 전략 적용

태그

#LLM Security #Multi-Agent Consensus #Prompt Injection #Middleware Pipeline #Adversarial Input

원문 읽기