피드로 돌아가기
공격적인 AI 스크래퍼가 위키 운영을 꽤 힘들게 만들고 있음
GeekNewsGeekNews
Infrastructure

공격적인 AI 스크래퍼가 위키 운영을 꽤 힘들게 만들고 있음

AI 스크래퍼로 인한 CPU 부하 50% 및 장애 95% 유발 해결 전략

neo2026년 5월 22일17advanced

Context

주거용 프록시를 통한 IP 우회와 Chrome 헤더 위장으로 기존 User Agent 기반 차단 체계 무력화. MediaWiki 특성상 캐시를 우회하는 비효율적 URL 크롤링이 일반 요청 대비 50~100배의 처리 비용을 발생시키는 구조적 한계 직면.

Technical Solution

  • Human Behavioral Pattern 분석을 통한 결정 트리 기반의 휴리스틱 탐지 시스템 설계
  • 단순 IP/UA 필터링을 넘어 HTTP 버전, TLS Cipher, ja4 해시 등 정교한 L7 요청 속성 분석 적용
  • 실제 사용자가 생성하는 전형적인 HTTP 요청 시퀀스와 봇의 요청 패턴 간의 불일치(Gap)를 식별하여 Challenge 적용
  • 고비용 쿼리 파라미터를 포함한 비정상 URL 접근을 차단하여 파서 캐시(Parser Cache) 우회 및 CPU 병목 현상 완화
  • 신규 기여자의 진입 장벽을 낮추기 위해 전체 로그인 강제 대신 트래픽 특성별 차등 챌린지 전략 채택

- [ ] L7 레벨에서 ja4 해시 및 TLS 지문(Fingerprint)을 통한 클라이언트 식별 로직 검토 - [ ] 서비스 내 처리 비용이 유독 높은 '비효율적 URL 패턴'을 정의하고 모니터링 쿼리 설정 - [ ] 단순 차단 대신 Behavioral Heuristics에 기반한 조건부 챌린지(Challenge) 도입으로 UX 저해 최소화 - [ ] ASN 기반으로 고위험 데이터센터 및 클라우드 제공자 트래픽의 우선순위 조정 검토

원문 읽기