Claude Mythos Preview, 전문가급 CTF 73% 성공 및 TLO 32단계 완전 정복

Evaluation of Claude Mythos Preview's cyber capabilities

2026년 4월 13일5분advanced

AI 요약

Context

기존 LLM은 단순 챗 기반 탐색이나 기초 수준의 Cyber Task 수행에 그치는 한계 노출. 다단계 공격 시나리오와 같은 고차원적 추론 및 지속적 Operation 수행 능력이 부족한 상태였음.

Technical Solution

Multi-stage Attack 시뮬레이션을 통한 자율적 Vulnerability Discovery 및 Exploit 메커니즘 구현
32단계의 기업 네트워크 공격 시나리오인 TLO 구조를 통한 Reconnaissance부터 Network Takeover까지의 전체 Chain 수행
Inference Compute 확장을 통한 복잡도 해결 및 Token Budget 증가에 따른 성능 Scale-up 전략 적용
단순 Skill 격리 테스트인 CTF를 넘어 다수 Host와 Network Segment를 가로지르는 Chaining 로직 최적화
Network Access 권한 부여 및 명시적 지시를 통한 자율적 공격 수행 환경 구축

Impact

Expert-level CTF Task 성공률 73% 달성
인간 전문가 기준 20시간 소요되는 TLO 시나리오를 최초로 완수 (10회 시도 중 3회 성공)
TLO 평균 수행 단계 22/32단계 기록 (Claude Opus 4.6의 16단계 대비 대폭 향상)
최대 100M Token Budget까지 성능이 지속적으로 확장되는 Scaling Law 확인

Key Takeaway

Inference-time Compute의 증가는 복잡한 Multi-step Reasoning이 필요한 Cyber Security 도메인에서 성능의 임계점을 돌파하는 핵심 동력임.

실천 포인트

- AI 기반 자율 공격 가능성에 대비한 기초적인 Security Posture(업데이트, Access Control) 재점검 - 단순 정적 분석을 넘어 실시간 Endpoint Detection 및 Active Monitoring 체계 구축 검토 - AI 모델의 Inference Scaling 성능을 고려한 방어 전략의 고도화 필요성 분석

태그

#Vulnerability Discovery #Inference Scaling #Autonomous Attack #LLM #Cybersecurity

원문 읽기