피드로 돌아가기
I Built an Adversarial Eval Framework and Attacked 5 LLMs — Every Single One Failed
Dev.toDev.to
AI/ML

5종 LLM 대상 Adversarial Eval 수행 결과 최대 정답률 62.5% 기록

I Built an Adversarial Eval Framework and Attacked 5 LLMs — Every Single One Failed

Saurav Bhattacharya2026년 6월 8일11advanced

Context

기존 LLM 평가 방식이 단순 지식이나 포맷팅 검증에 치중하여 실제 Agentic Loop 내의 런타임 실패 모드를 탐지하지 못하는 한계 존재. Tool Call과 Multi-turn Reasoning이 포함된 실전 환경에서의 보안 취약점 및 추론 오류 분석 필요성 대두.

Technical Solution

  • 비용 효율성을 극대화한 3-Tier Assertion Pyramid 구조 설계로 하위 티어 실패 시 상위 티어 호출을 즉시 차단하는 Short-circuit 로직 구현
  • Deterministic(문자열 매칭), Heuristic(통계적 분석), Model-as-Judge(LLM 평가) 순의 계층적 검증 프로세스 구축
  • ReAct Agentic Loop 기반의 Harness를 통해 Prompt-Think-Tool-Observe-Final Answer로 이어지는 전체 실행 주기 캡처
  • Prompt Injection 및 Circular Dependency 등 10가지 Adversarial Scenario를 포함한 Mock Tool 환경 구축으로 모델의 한계점 정밀 측정
  • 단순 텍스트 출력이 아닌 Tool Call의 결과값이 시스템 프롬프트를 오염시키는 실제 공격 경로 시뮬레이션

1. 복잡한 Multi-step Tool Chain을 작은 단위의 검증 가능한 단계로 분리하여 설계

2. 모델 외부의 Static Analysis 및 Mandatory Checklist를 통한 다층 방어 체계(Guardrails) 구축

3. 에이전트 컨텍스트 주입 시 이전 분석 결과나 사용자 의견을 배제하여 Anchor 효과 방지

원문 읽기