피드로 돌아가기
Miasma: AI 웹 스크레이퍼를 끝없는 오염 루프로 가두는 도구
GeekNewsGeekNews
Security

Miasma: AI 웹 스크레이퍼를 끝없는 오염 루프로 가두는 도구

Miasma가 AI 웹 스크레이퍼를 자기참조 링크 기반 오염 데이터로 무한 루프에 가두는 기술

neo2026년 3월 30일1intermediate

Context

AI 학습 데이터 수집을 위해 웹 콘텐츠를 대규모로 스크레이핑하는 사례가 증가하고 있다. 기존 방어 체계는 요청 차단 위주로 동작하여 스크레이퍼의CPU 자원을 소모시키지 못했다.

Technical Solution

  • AI 스크레이퍼 → 자기참조 링크 (/bots.prefix) 생성 방식으로 유도
  • 각 응답 페이지 → poison-source에서 가져온 오염 데이터 5개 삽입
  • max-in-flight 500 제한으로 요청 처리 용량 초과 시 429 응답 반환
  • force-gzip 비활성화로 스크레이퍼의 압축 해제 리소스 낭비 방지

Impact

단일 스크레이핑 세션에서 무한 루프 진입 시 스크레이퍼의 네트워크 대역폭과CPU 사용률이 비정상적으로 상승한다.

Key Takeaway

오염 데이터 주입과 자기참조 링크 조합으로 스크레이퍼의 학습 데이터를 의도적으로 변질시킬 수 있다.


AI 학습 데이터 수집 방어 환경에서 poison-source 기반 오염 데이터와 link-prefix 자기참조 링크를 force-gzip 비활성화와 함께 구성 시 스크레이퍼를 무한 루프에 가두어 학습 데이터 품질을 저하시킬 수 있다

원문 읽기