피드로 돌아가기
Dev.toBackend
원문 읽기
Async 파이프라인 도입으로 데이터 수집 속도 9배 향상 및 성공률 최적화
Building an End-to-End Amazon Movers & Shakers Data Pipeline: Engineering Guide from Real-Time Crawling to Automated Alerting
AI 요약
Context
Amazon Movers and Shakers 데이터의 실시간 트렌드 감지를 위해 Rotating Proxy와 Playwright 기반의 자체 스크래퍼를 운용함. 하지만 카테고리 확장 시 IP Reputation 저하와 HTML Structure Drift로 인해 성공률이 43%까지 급락하는 확장성 한계에 직면함.
Technical Solution
- Managed Scrape API 도입을 통한 Proxy Rotation 및 Session Management 오버헤드 제거
- aiohttp 기반의 Async Multi-Category Collector 설계를 통한 순차 처리 방식의 병목 제거
- asyncio.Semaphore(MAX_CONCURRENT=10) 적용으로 API 쿼터 준수 및 동시 요청 제어
- BSR Gain, Review Count, Rating을 결합한 Composite Opportunity Score 로직을 통한 데이터 필터링
- Redis 기반의 TTL(7200s) 설정으로 중복 알림을 방지하는 Deduplication 레이어 구축
- Docker 및 systemd를 활용한 무중단 실행 환경 및 자동 재시작 구조 설계
실천 포인트
1. 외부 API 연동 시 Semaphore를 설정하여 Client-side Rate Limit을 제어했는가
2. 데이터 파이프라인의 중복 방지를 위해 Redis와 같은 캐시 레이어의 TTL 전략을 수립했는가
3. 단순 데이터 수집을 넘어 비즈니스 가치를 판단할 수 있는 Composite Scoring 로직을 포함했는가