피드로 돌아가기
Dev.toSecurity
원문 읽기
Cloudflare 탐지 우회를 통한 1M 페이지 스크래핑 효율 최적화
Selenium keeps getting blocked by Cloudflare? Here's what the fingerprint actually catches (and how to stop triggering it)
AI 요약
Context
Selenium 기반 자동화 도구가 WebDriver 플래그 및 CDP 시그니처를 노출하여 Cloudflare 챌린지에 빈번히 차단되는 상황 분석. 요청당 7-8초의 지연으로 인해 100만 페이지 처리 시 약 81일이 소요되는 심각한 성능 병목 발생.
Technical Solution
navigator.webdriver플래그 및 CDP RPC 패턴 수정을 통한 브라우저 핑거프린트 은닉- ChromeDriver를 거치지 않고 Chrome DevTools Protocol(CDP)로 직접 통신하여 탐지 벡터 제거
- TLS JA3 핑거프린트 모방을 통한 네트워크 레벨의 브라우저 식별 정보 일치화
- Persistent Stealth Profile 적용으로 쿠키 및 LocalStorage를 유지하여 'Warm Browser' 신호 생성
- Residential Proxy 활용을 통해 데이터센터 ASN 기반의 IP 차단 리스크 최소화
Impact
- 요청당 7~8초 소요되던 Cloudflare 챌린지 지연 시간을 제거하여 100만 페이지 처리 기간을 81일에서 획기적으로 단축
실천 포인트
- 자동화 도구 선정 시 QA 목적의 Selenium과 스크래핑 목적의 Stealth 도구 구분 필요 - 브라우저 레벨의 핑거프린트(CDP, WebDriver 플래그)와 네트워크 레벨의 핑거프린트(TLS JA3, ASN)를 동시에 검토 - 단순 Headless 모드 대신 실제 브라우저 프로필을 유지하는 Persistent Session 전략 적용