피드로 돌아가기
InfoQInfoQ
Security

SWE-bench 93.9% 달성 및 Zero-day 취약점 자동 탐색 역량 확보

Anthropic Releases Claude Mythos Preview with Cybersecurity Capabilities but Withholds Public Access

Daniel Curtis2026년 4월 13일3advanced

Context

기존 Claude Opus 4.6 모델의 제한적인 취약점 탐색 및 Exploit 생성 능력으로 인한 보안 분석 효율성 한계 존재. 단순 패턴 매칭을 넘어선 고도화된 Reasoning과 Coding 능력을 통한 실제 시스템 제어권 획득 요구 증대.

Technical Solution

  • Constitutional AI 기법을 통한 모델 Alignment 최적화로 Helpfulness와 Safety 간 균형 설계
  • 고도화된 Reasoning 메커니즘 적용을 통한 복잡한 Control Flow Hijack 로직 구현
  • 다양한 OS 및 Web Browser의 Zero-day 취약점을 자율적으로 탐색하는 자동화된 분석 파이프라인 구축
  • Project Glasswing 체제를 통한 제한적 배포 및 신뢰 기반의 Closed-loop 취약점 패치 워크플로우 설계
  • 실제 소프트웨어 엔지니어링 벤치마크(SWE-bench) 기반의 성능 검증 및 정밀 튜닝

Impact

  • SWE-bench Verified 점수 80.8%에서 93.9%로 상승
  • Firefox 취약점 대상 JavaScript shell exploit 성공 횟수가 수 회 수준에서 181회로 급증
  • OSS-Fuzz corpus 기반의 Fully patched 타겟 10종에 대해 Full control flow hijack 달성
  • OpenBSD(27년 전 버그) 및 FFmpeg H.264 codec(16년 전 버그) 등 레거시 취약점 정밀 탐지

Key Takeaway

모델의 추론 능력이 임계점을 넘을 경우 기존 보안 패치 체계를 무력화하는 강력한 공격 도구가 될 수 있음을 확인. 고성능 모델의 공개 범위 제한 및 신뢰 기관과의 협업을 통한 선제적 패치 전략 수립의 필요성 시사.


- AI 기반 취약점 스캐닝 도구 도입 시 Control Flow Hijack 가능성 검토 - AI가 생성한 Exploit 코드를 통한 실제 취약점 검증 프로세스 구축 - 레거시 라이브러리 및 임베디드 디바이스의 업데이트 불가능한 바이너리에 대한 보안 리스크 재평가

원문 읽기