Mythos/GPT-5.5, 취약점 탐지를 넘어 실제 Exploit 생성 능력 입증

AI agents show they can create exploits, not just find vulns

2026년 5월 15일4분advanced

AI 요약

Context

기존 AI 모델은 소프트웨어 취약점 탐지에는 능숙하나 이를 실제 동작하는 Exploit으로 구현하는 weaponization 단계에서 한계를 보임. 특히 ASLR이나 V8 Sandbox 같은 현대적 보안 방어 체계 하에서의 실효성 검증이 부족한 상태였음.

Technical Solution

ExploitGym 벤치마크 설계를 통한 AI Agent의 Arbitrary Code Execution 생성 능력 정밀 측정
Linux Kernel, V8 JavaScript Engine 등 898개의 실제 취약점 데이터셋을 활용한 실무 환경 재구성
CLI 기반 모델 인터페이스를 통한 취약점 정보 및 PoC 입력값 주입 후 실제 공격 코드 생성 유도
Security Guardrails를 제거한 상태에서 모델의 순수 추론 및 exploit 생성 로직 검증
의도된 취약점 외에 다른 경로를 찾아내는 Off-script 공격 패턴 분석을 통한 AI의 자율적 탐색 능력 확인

Impact

Claude Mythos Preview의 157건, GPT-5.5의 120건 Exploit 성공 달성
기본 안전 필터 활성 시 GPT-5.5의 거부율 88.2% 기록으로 Guardrail의 기초적 작동 확인
Mythos Preview의 경우 226건의 CTF 성공 중 69건을 의도하지 않은 별도 취약점 공략으로 해결

실천 포인트

- AI 기반 자동화 공격 도구의 등장에 따라 단순 Patch 관리를 넘어선 다층 방어 체계(Defense in Depth) 재검토 - 단일 모델 기반의 보안 검증보다 다양한 모델을 교차 활용하는 Ensemble 접근법을 통한 취약점 탐지율 제고 - 프롬프트 엔지니어링을 통한 Guardrail 우회 가능성을 고려하여 런타임 보안 모니터링 강화

태그

#AI Agent #Vulnerability #Benchmark #Arbitrary Code Execution #Exploit

원문 읽기