피드로 돌아가기
Threads Reply Scraper: export the full conversation tree of any public post
Dev.toDev.to
Backend

TLS 핑거프린팅 우회 및 Relay 페이로드 파싱을 통한 Threads 대화 트리 추출

Threads Reply Scraper: export the full conversation tree of any public post

Devil Scrapes2026년 6월 3일10intermediate

Context

Meta의 공식 API가 서드파티 대화 읽기를 제한하고 개발자 계정 심사를 요구함에 따라 데이터 접근성 제약 발생. 기존의 단순 HTTP 요청 기반 스크래퍼는 Meta의 엄격한 TLS 검사와 IP 차단 정책으로 인해 실제 데이터 대신 로그인 페이지로 리다이렉트되는 한계 존재.

Technical Solution

  • curl-cffi 라이브러리를 활용하여 Chrome 131의 TLS 및 HTTP/2 핑거프린트를 모사함으로써 서버의 JA3/JA4 시그니처 검증 우회
  • residential proxy pool 기반의 세션 로테이션 및 403 에러 발생 시 즉각적인 프록시 교체 로직 구현을 통한 IP 차단 방지
  • HTML 내 script tag에 포함된 Relay 프레임워크 특유의 중첩 JSON 구조를 분석하여 thread_items 노드를 추적하는 파서 설계
  • root_post_id와 parent_reply_id를 활용한 평면 구조(Flat row) 데이터 설계를 통해 SQL LEFT JOIN만으로 대화 그래프 복원이 가능하도록 구현
  • 지수 백오프(Exponential Backoff) 전략(기본 2s, 최대 30s)을 적용하여 408, 429, 5xx 응답에 대한 시스템 안정성 확보

1. Meta 등 대형 플랫폼 스크래핑 시 JA3/JA4 핑거프린팅 여부 확인

2. 데이터 구조 설계 시 계층형 데이터를 평면화하여 저장하고 ID 참조를 통해 그래프를 복원하는 방식 검토

3. API Rate Limit 대응을 위한 Exponential Backoff 및 Proxy Rotation 전략 수립

4. 서버 사이드 렌더링(SSR) HTML 내에 숨겨진 JSON 페이로드 존재 여부 우선 확인

원문 읽기