Context Hub의 검증되지 않은 문서 파이프라인이 AI 코딩 에이전트를 중독된 의존성으로 주입하는 공급망 공격 벡터로 작용

AI supply chain attacks don’t even require malware…just post poisoned documentation

Thomas Claburn2026년 3월 25일9분intermediate

AI 요약

Context

AI 코딩 에이전트는 오래된 API 문서를 참고하거나 파라미터를 환각하는 문제를 가지고 있다. Context Hub는 MCP 서버를 통해 최신 API 문서를 AI 에이전트에 공급하는 서비스로 출범했으나, 문서 파이프라인의 모든 단계에서 콘텐츠 살균 처리(sanitization)가 없다.

Technical Solution

공격 방법: 공격자가 가짜 PyPI 패키지 이름을 문서 PR에 포함시키고 병합되도록 한다.
감염 메커니즘: AI 에이전트가 Context Hub의 중독된 문서를 읽고 자동으로 가짜 의존성을 requirements.txt 및 생성 코드에 포함시킨다.
검증 결과: Anthropic Haiku는 40회 테스트 모두에서 악성 패키지를 감지하지 못했고, Sonnet은 53% (21/40)의 경우 여전히 잘못된 라이브러리를 작성했으며, Opus만 75% (30/40)의 경우 경고를 발행했다.
근본 원인: 간접 프롬프트 인젝션(indirect prompt injection) - AI 모델이 데이터와 시스템 지시사항을 신뢰성 있게 구분하지 못한다.

Impact

97개의 closed PR 중 58개가 병합되었으며, 보안 검토보다 문서 량을 우선시하는 리뷰 프로세스.
Haiku 모델: 100% (40/40)의 경우 경고 없이 악성 패키지 작성.
Sonnet 모델: 48% (19/40)의 경우만 경고 발행, 53% (21/40)에서 여전히 악성 의존성 작성.
Opus 모델: 75% (30/40)의 경우 경고 발행, 악성 의존성 작성 0%.

Key Takeaway

신뢰할 수 없는 출처의 문서를 AI 에이전트에 제공할 때는 네트워크 격리 또는 최소한 비공개 데이터 접근 제한을 필수적으로 적용해야 한다. 현재 AI 모델은 직접 프롬프트 인젝션을 완전히 방어할 수 없으므로 아키텍처 수준의 신뢰 경계 설정이 유일한 방어책이다.

실천 포인트

AI 코딩 에이전트를 운영하는 팀에서는 커뮤니티 기여 문서(Context Hub, lap.sh 등)를 공급원으로 사용할 때 다음 두 가지 중 하나를 필수 적용해야 한다: (1) 에이전트가 외부 네트워크에 접근할 수 없도록 격리하거나, (2) 프로덕션 데이터나 민감한 환경에 대한 네트워크 접근을 제한해야 한다. Anthropic Haiku나 Sonnet 같은 낮은 수준의 모델을 사용하는 경우 입력 콘텐츠의 무결성 검증 메커니즘이 완전히 부재하므로 인프라 수준의 격리가 필수적이다.

태그

#Supply Chain Attack #Prompt Injection #LLM-Agents #AI Security

원문 읽기