피드로 돌아가기
Dev.toBackend
원문 읽기
URL 공간 분리 대응을 통한 RedShop 전용 커머스 스크레이퍼 설계
Building a Xiaohongshu (RedNote) E-commerce Scraper for RedShop Product Data
AI 요약
Context
Xiaohongshu의 소셜 데이터와 커머스 데이터가 서로 다른 URL 공간(/explore/ vs /goods-detail/)에 존재하는 구조적 분리 발생. 기존 All-in-one 스크레이퍼로는 상품 상세 정보 및 벤더 카탈로그 추출을 위한 데이터 구조 대응에 한계 존재.
Technical Solution
- URL 엔드포인트 분리를 통한 Commerce-focused 전용 파이프라인 설계
- 상품 ID, SKU 변동 가격, 벤더 메타데이터 등 정형화된 Product Fields 추출 로직 구현
- keyword 검색, 벤더 전체 카탈로그, 특정 상품 상세 분석을 지원하는 3가지 동작 모드(product_search, vendor_products, product_detail) 구축
- Cross-border 플래그 기반의 국내/해외 상품 구분 필터링 시스템 적용
- Apify Residential Proxy Pool 연동을 통한 플랫폼 차단 회피 및 데이터 수집 안정성 확보
- 데이터셋 버전 관리를 통한 시계열 가격 추적 및 히스토리 관리 구조 설계
실천 포인트
대상 플랫폼의 URL 구조 및 데이터 스키마가 도메인별로 분리되어 있는지 우선 분석하고, 범용 도구보다 목적 기반의 전용 추출기를 설계하여 데이터 정밀도를 높일 것