Async 파이프라인 도입으로 데이터 수집 속도 9배 향상 및 성공률 최적화

Building an End-to-End Amazon Movers & Shakers Data Pipeline: Engineering Guide from Real-Time Crawling to Automated Alerting

Mox Loop2026년 4월 23일9분intermediate

AI 요약

Context

Amazon Movers and Shakers 데이터의 실시간 트렌드 감지를 위해 Rotating Proxy와 Playwright 기반의 자체 스크래퍼를 운용함. 하지만 카테고리 확장 시 IP Reputation 저하와 HTML Structure Drift로 인해 성공률이 43%까지 급락하는 확장성 한계에 직면함.

Technical Solution

Managed Scrape API 도입을 통한 Proxy Rotation 및 Session Management 오버헤드 제거
aiohttp 기반의 Async Multi-Category Collector 설계를 통한 순차 처리 방식의 병목 제거
asyncio.Semaphore(MAX_CONCURRENT=10) 적용으로 API 쿼터 준수 및 동시 요청 제어
BSR Gain, Review Count, Rating을 결합한 Composite Opportunity Score 로직을 통한 데이터 필터링
Redis 기반의 TTL(7200s) 설정으로 중복 알림을 방지하는 Deduplication 레이어 구축
Docker 및 systemd를 활용한 무중단 실행 환경 및 자동 재시작 구조 설계

실천 포인트

1. 외부 API 연동 시 Semaphore를 설정하여 Client-side Rate Limit을 제어했는가

2. 데이터 파이프라인의 중복 방지를 위해 Redis와 같은 캐시 레이어의 TTL 전략을 수립했는가

3. 단순 데이터 수집을 넘어 비즈니스 가치를 판단할 수 있는 Composite Scoring 로직을 포함했는가

태그

#Redis Deduplication #asyncio #Rate Limiting #Data Pipeline #Managed API

원문 읽기