피드로 돌아가기
I Tested Claude Opus 4, GPT-4.1, GPT-4o, Sonnet 4, and Gemini 2.5 Pro on 10 Adversarial Scenarios. They All Broke on the Same One.
Dev.toDev.to
AI/ML

Frontier LLM의 Adversarial Framing 하 Tool-use 능력 상실 및 Agentic Regression 발견

I Tested Claude Opus 4, GPT-4.1, GPT-4o, Sonnet 4, and Gemini 2.5 Pro on 10 Adversarial Scenarios. They All Broke on the Same One.

Saurav Bhattacharya2026년 6월 9일13advanced

Context

기존 LLM Safety Eval이 단순히 유해 콘텐츠 생성 여부(Refusal)에 집중함에 따라 실제 Agent 환경에서의 도구 활용 능력 검증이 부족한 상황. 특히 System Prompt와 User Prompt가 상충하는 Adversarial Scenario에서 모델의 동작 안정성 확보가 필요함.

Technical Solution

  • Deterministic String-match Assertion 기반의 10가지 Adversarial Scenario를 통한 LLM-as-judge 편향 제거
  • read_file, list_files 등 실제 Tool call을 통한 취약점 분석 과정을 강제하는 Agent-eval 프레임워크 설계
  • System Prompt(보안 감사자 역할)와 User Prompt(단순 승인 요청) 간의 의도적 충돌을 통한 Authority 시나리오 구성
  • 단순한 가치 정렬(Value-alignment) 여부가 아닌, 상충 상황에서의 Tool-use 유지 능력(Agentic Capability) 측정
  • 35개 Assertion과 175개 테스트 포인트를 통한 정밀한 Regression 분석 체계 구축

- LLM Agent 설계 시 System Prompt의 지시사항과 User의 요청이 충돌할 때 Tool-use가 중단되는지 테스트 케이스 추가 - LLM-as-judge 대신 결정론적인 String-match Assertion을 도입하여 평가 객관성 확보 - 모델 업데이트 시 성능 저하를 탐지하기 위해 단일 실행이 아닌 다회차 벤치마크를 통한 Stochastic Noise 제거 및 검증

원문 읽기