피드로 돌아가기
InfoQInfoQ
Security

100개 이상의 AI Agent 협업을 통한 취약점 탐지 자동화 및 CyberGym 88.45% 달성

Microsoft Introduces MDASH for Large-Scale AI Vulnerability Research

Robert Krzaczyński2026년 5월 25일2advanced

Context

단일 모델 기반의 프롬프트 체이닝으로는 Windows와 같은 대규모 Proprietary Codebase의 복잡한 종속성 분석에 한계 존재. 단순한 이론적 취약점 식별을 넘어 실제 Exploitation 가능 여부를 검증하는 체계적인 파이프라인의 부재.

Technical Solution

  • Model-agnostic 설계를 통한 개별 모델 의존성 제거 및 워크플로우 인프라의 독립성 확보
  • 100개 이상의 Specialized AI Agents를 배치하여 Scanning, Debate, Validation, Deduplication, Exploitation 단계를 분리한 Multi-stage Pipeline 구축
  • 다수 에이전트 간의 상호 검토 및 토론 프로세스를 통한 오탐(False Positive) 제거 및 정밀도 향상
  • 파일 간 상관관계 분석을 통한 Lifecycle 및 Concurrency Bug 식별 로직 구현
  • 이론적 취약점 발견 단계에서 실제 Proof Generation 단계로 이어지는 자동화 검증 루프 설계

Impact

  • Public CyberGym Benchmark 1,507개 취약점 대상 88.45% 득점 기록
  • Microsoft Security Response Center 기준 clfs.sys 취약점 96% Recall 달성
  • historical tcpip.sys 사례에 대해 100% Recall 기록

Key Takeaway

LLM의 단순 성능보다 모델을 둘러싼 Orchestration System의 설계가 대규모 시스템 분석의 핵심이며, 도메인 특화 에이전트들의 협업 구조를 통해 모델의 한계를 보완하는 아키텍처적 접근이 필수적임.


1. 단일 LLM 의존도를 낮추기 위해 Model-agnostic한 오케스트레이션 레이어 설계 검토

2. 복잡한 워크플로우를 Scanning-Validation-Proving 단계로 세분화하여 에이전트 간 상호 검증 체계 도입

3. 에이전트 권한 설정 시 Blast Radius 최소화를 위한 Governance Layer 우선 설계

원문 읽기