피드로 돌아가기
Dev.toInfrastructure
원문 읽기
Datadome 우회 및 Residential Proxy 기반 Vinted 데이터 수집 아키텍처
How to Scrape Vinted in 2026 (Without Getting Blocked)
AI 요약
Context
공개 카탈로그 데이터 수집 시 Datadome의 강력한 Bot Detection으로 인해 일반적인 Datacenter IP와 표준 HTTP Client는 즉각적인 403 Forbidden 응답을 수신함. 특히 TLS Handshake의 JA3 Fingerprint 분석과 IP 평판 기반의 차단 메커니즘이 주요 병목 지점으로 작용함.
Technical Solution
- Datacenter IP의 즉각적인 차단을 회피하기 위해 Residential Proxy 및 Mobile IP 기반의 IP Rotation 전략 채택
- Python requests의 표준 JA3 해시를 숨기기 위해 curl-cffi 라이브러리를 통한 Chrome 브라우저의 TLS Fingerprint 모사
- JavaScript 렌더링이 필요한 세션의 경우 Camoufox 및 Chromium-stealth를 도입하여 브라우저 Fingerprint 탐지 무력화
- IP 지리적 위치와 HTTP Request Header의 Accept-Language 값을 일치시켜 비정상적인 접근 패턴 제거
- 1~2 requests/second의 저속 요청 빈도를 유지하여 Rate Limit 및 행동 기반 탐지 로직 우회
실천 포인트
- Datacenter IP 사용 지양 및 Residential Proxy 풀 확보 - curl-cffi 또는 tls-client를 통한 TLS JA3 Fingerprint 일치 여부 검토 - Browser-based Scraping 시 Stealth 플러그인을 통한 Fingerprint 은폐 적용 - IP Geo-location과 Request Header의 일관성 검증 - 요청 빈도를 인간의 행동 패턴 수준으로 제어하는 Rate Limiting 설계