피드로 돌아가기
How to scrape RedNote (Xiaohongshu) with Python in 2026 — the auth/signing problem and how to handle it
Dev.toDev.to
Backend

TLS Fingerprinting 및 Request Signing 우회를 통한 RedNote 데이터 추출 최적화

How to scrape RedNote (Xiaohongshu) with Python in 2026 — the auth/signing problem and how to handle it

Sami2026년 4월 25일12advanced

Context

공식 API 부재와 강력한 Anti-scraping 스택으로 인해 단순 HTTP 요청 기반의 데이터 수집 불가. 특히 TLS Fingerprinting과 동적 Request Signing 알고리즘이 데이터 접근의 주요 병목 지점으로 작용.

Technical Solution

  • curl_cffi 라이브러리를 통한 Chrome/Safari TLS Fingerprint 모사로 JA3/JA4 기반의 봇 탐지 레이어 우회
  • JS 번들 리버스 엔지니어링을 통한 x-s, x-t, x-s-common 헤더 생성 로직의 Python 구현으로 요청 무결성 검증 통과
  • Datacenter IP의 즉각적 차단 문제를 해결하기 위해 아시아 태평양 지역 중심의 Residential Proxy 풀 구성
  • 412/418 에러 방지를 위한 IP당 요청 빈도 제한 및 Exponential Backoff 전략 적용
  • xsec_token 파라미터 처리를 통한 인증 링크 요청의 유효성 확보 및 데이터 정합성 유지

1. JA3/JA4 탐지 여부 확인 후 curl_cffi 도입 검토

2. Request Signing 로직의 월 단위 변경 주기를 고려한 유지보수 리소스 확보

3. Datacenter IP 대신 Asia-Pacific Residential Proxy 사용

4. xsec_token 등 특수 인증 파라미터의 처리 로직 포함 여부 검증

원문 읽기