피드로 돌아가기
Dev.toBackend
원문 읽기
Reddit API 의존 없이 DuckDuckGo HTML 스크래핑으로 레딧 검색 기능을 구현한 과정을 소개한다
I Built a Custom Reddit Search Tool. APIs? We Don't Need No Stinkin' APIs! (Pure Web Scraping Power!)
AI 요약
Context
Zlvox 플랫폼에 Reddit 검색 기능이 필요했으나, Reddit API의 제한과 불안정성으로 인한 어려움을 겪었다. 기존 서드파티 래퍼나 API 키 의존적인 방식은 유지보수 부담과 예기치 못한 차단 위험을 수반했다.
Technical Solution
- Reddit API 대신 DuckDuckGo HTML 검색 결과를 스크래핑하는 프록시 계층을 구축했다
- cURL 요청 시 Mozilla Chrome User-Agent를 설정하여 일반 브라우저 요청으로 위장했다
- 시간 필터(day/week/month/year)를 DDG의 df 파라미터(d/w/m/y)로 변환하여 검색 범위 조절 기능을 구현했다
- 정규표현식으로 href 링크, 업보트 수, 스니펫 텍스트를 추출하는 파서를 개발했다
- 프론트엔드는 Bootstrap이나 Tailwind 같은 프레임워크 없이 순수 CSS로 구축했다
Impact
API 키 관리 및 요금 부담 제거, Reddit API 차단으로 인한 서비스 중단 위험 회피
Key Takeaway
검색 엔진의 HTML 결과를 프록시로 활용하면 원본 사이트의 API 제한을 우회하면서도 안정적인 데이터 수집이 가능하다
실천 포인트
제한된 API 환경에서 외부 사이트 데이터를 수집할 때, 검색 엔진 HTML 결과를 스크래핑 방식으로 활용하면 API 의존 없이 안정적으로 데이터를 확보할 수 있다