피드로 돌아가기
Dev.toSecurity
원문 읽기
AI 에이전트 스킬 14.5%에서 발견된 악성 패턴 분석 기록
I Scanned 2,000 OpenClaw Skills for Malicious Patterns — 14.5% Failed
AI 요약
Context
OpenClaw 생태계의 AI 에이전트 스킬 파일들이 검증 없이 배포되는 구조. 마크다운 기반의 지침 파일이 AI 에이전트에 의해 직접 파싱 및 실행되는 방식. 코드 취약점이 아닌 에이전트의 행동을 유도하는 논리적 악성 패턴에 노출된 상태.
Technical Solution
- 행동 패턴 탐지 중심의 보안 스캐너 clawhub-bridge 설계
- 자격 증명 유출 및 스테가노그래피 페이로드 등 42개 카테고리의 145개 탐지 패턴 구현
- Cyrillic homoglyphs를 이용한 콘텐츠 필터 우회 및 에이전트 행동 제어 기법 식별
- 깊은 위임 체인(Deep delegation chains)을 통한 Confused Deputy 공격 벡터 분석
- macOS LaunchAgents 및 systemd 서비스를 활용한 호스트 시스템 지속성 확보 메커니즘 추적
- 정적 분석 결과에 수동 트리아지(Manual Triage)를 결합하여 오탐(False Positive) 제거 및 실제 위협률 산출
Impact
- 전체 스캔 대상 스킬의 14.5%가 보안 검사 실패
- 총 1,034건의 CRITICAL, 406건의 HIGH, 75건의 MEDIUM 취약점 발견
- 데이터 세트별 실패율: Curated 13.1%, Full archive 14.5%
- 실제 심각한 위협이 확인된 스킬의 비율은 5~8%로 추정
Key Takeaway
패키지 무결성 검증이나 CVE 확인 같은 기존 보안 도구만으로는 AI 에이전트의 지시문 기반 행동 위험을 제어할 수 없음. 실행 가능한 지침 자체의 의도를 분석하는 행동 분석 레이어 도입이 필수적임.
실천 포인트
AI 에이전트에게 외부 스킬/지침을 부여할 때, 단순 체크섬 검증을 넘어 권한 상승(sudo) 및 외부 데이터 전송(curl POST) 패턴을 차단하는 런타임 가드레일을 구축할 것