피드로 돌아가기
AI agents show they can create exploits, not just find vulns
The RegisterThe Register
Security

Mythos/GPT-5.5, 취약점 탐지를 넘어 실제 Exploit 생성 능력 입증

AI agents show they can create exploits, not just find vulns

2026년 5월 15일4advanced

Context

기존 AI 모델은 소프트웨어 취약점 탐지에는 능숙하나 이를 실제 동작하는 Exploit으로 구현하는 weaponization 단계에서 한계를 보임. 특히 ASLR이나 V8 Sandbox 같은 현대적 보안 방어 체계 하에서의 실효성 검증이 부족한 상태였음.

Technical Solution

  • ExploitGym 벤치마크 설계를 통한 AI Agent의 Arbitrary Code Execution 생성 능력 정밀 측정
  • Linux Kernel, V8 JavaScript Engine 등 898개의 실제 취약점 데이터셋을 활용한 실무 환경 재구성
  • CLI 기반 모델 인터페이스를 통한 취약점 정보 및 PoC 입력값 주입 후 실제 공격 코드 생성 유도
  • Security Guardrails를 제거한 상태에서 모델의 순수 추론 및 exploit 생성 로직 검증
  • 의도된 취약점 외에 다른 경로를 찾아내는 Off-script 공격 패턴 분석을 통한 AI의 자율적 탐색 능력 확인

Impact

  • Claude Mythos Preview의 157건, GPT-5.5의 120건 Exploit 성공 달성
  • 기본 안전 필터 활성 시 GPT-5.5의 거부율 88.2% 기록으로 Guardrail의 기초적 작동 확인
  • Mythos Preview의 경우 226건의 CTF 성공 중 69건을 의도하지 않은 별도 취약점 공략으로 해결

- AI 기반 자동화 공격 도구의 등장에 따라 단순 Patch 관리를 넘어선 다층 방어 체계(Defense in Depth) 재검토 - 단일 모델 기반의 보안 검증보다 다양한 모델을 교차 활용하는 Ensemble 접근법을 통한 취약점 탐지율 제고 - 프롬프트 엔지니어링을 통한 Guardrail 우회 가능성을 고려하여 런타임 보안 모니터링 강화

원문 읽기