피드로 돌아가기
Dev.toBackend
원문 읽기
Endpoint 변경만으로 Reddit 스크레이퍼 성공률 61%에서 92%로 회복
Why my Reddit scraper went from 92% to 61% success rate in 30 days (and the one-line fix)
AI 요약
Context
Residential Proxy Pool 공유 환경에서 타 스크레이퍼의 과도한 요청으로 인한 IP Reputation 저하 발생. Proxy Rotation 및 User-Agent 다양화 전략을 적용했으나, WAF의 Edge 단 차단으로 인해 성공률이 92%에서 61%로 급락한 상황.
Technical Solution
- WAF 탐지 임계값이 낮은 old.reddit.com으로 Hostname을 변경하여 Bot Detection 회피
- Sec-Ch-Ua 및 Sec-Fetch-Site 등 Browser-like Header 세트를 보강하여 Fingerprinting 정밀도 향상
- 요청 간 300~900ms의 Jitter를 도입하여 일정한 요청 패턴 기반의 탐지 로직 무력화
- Firefox 및 Safari UA를 추가하여 Chrome 편중 현상을 해소하고 UA Rotation의 유효성 확보
- old.reddit.com 실패 시 www.reddit.com으로 전환하는 Automatic Fallback 메커니즘 설계
Impact
- 성공률 61%에서 92% 이상으로 즉각적인 회복
- 403 Forbidden 에러 및 Retry 횟수 0회 달성
- 5개 포스트 추출 기준 처리 시간 4.8초 기록
실천 포인트
1. 고부하 타겟 스크레이핑 시 www 외에 old 또는 m 서브도메인의 WAF 정책 차이 검토
2. Proxy Pool 오염 시 단순 Rotation보다 엔드포인트 변경 등 구조적 우회 경로 탐색
3. 단순 UA 변경을 넘어 Sec-CH-UA 등 최신 브라우저 헤더 조합의 일관성 검증
4. 정적 Interval 대신 Random Jitter를 적용하여 트래픽 패턴 분석 회피