URL 공간 분리 대응을 통한 RedShop 전용 커머스 스크레이퍼 설계

Building a Xiaohongshu (RedNote) E-commerce Scraper for RedShop Product Data

Sami2026년 5월 6일4분intermediate

AI 요약

Context

Xiaohongshu의 소셜 데이터와 커머스 데이터가 서로 다른 URL 공간(/explore/ vs /goods-detail/)에 존재하는 구조적 분리 발생. 기존 All-in-one 스크레이퍼로는 상품 상세 정보 및 벤더 카탈로그 추출을 위한 데이터 구조 대응에 한계 존재.

Technical Solution

URL 엔드포인트 분리를 통한 Commerce-focused 전용 파이프라인 설계
상품 ID, SKU 변동 가격, 벤더 메타데이터 등 정형화된 Product Fields 추출 로직 구현
keyword 검색, 벤더 전체 카탈로그, 특정 상품 상세 분석을 지원하는 3가지 동작 모드(product_search, vendor_products, product_detail) 구축
Cross-border 플래그 기반의 국내/해외 상품 구분 필터링 시스템 적용
Apify Residential Proxy Pool 연동을 통한 플랫폼 차단 회피 및 데이터 수집 안정성 확보
데이터셋 버전 관리를 통한 시계열 가격 추적 및 히스토리 관리 구조 설계

실천 포인트

대상 플랫폼의 URL 구조 및 데이터 스키마가 도메인별로 분리되어 있는지 우선 분석하고, 범용 도구보다 목적 기반의 전용 추출기를 설계하여 데이터 정밀도를 높일 것

태그

#Schema Design #Residential Proxy #Web Scraping #Data Pipeline #Ecommerce Analysis

원문 읽기