피드로 돌아가기
I Built a Skill That Pulls Any Australian Real Estate Agent's Sales History in 60 Seconds
Dev.toDev.to
Backend

분산된 부동산 데이터의 통합 및 LLM 기반 구조화로 리서치 시간 98% 단축

I Built a Skill That Pulls Any Australian Real Estate Agent's Sales History in 60 Seconds

Ben Utting2026년 5월 1일8intermediate

Context

호주 부동산 포털 간 데이터 불일치 및 Public API 부재로 인한 수동 데이터 수집의 비효율 발생. JavaScript 렌더링 기반의 동적 웹 페이지 구조와 Cloudflare의 봇 차단 메커니즘이 데이터 확보의 주요 제약 사항으로 작용.

Technical Solution

  • httpx와 BeautifulSoup를 활용한 Agent Directory 검색 및 Canonical Profile URL 추출 구조 설계
  • Playwright 기반 Headless Chromium 도입을 통한 JavaScript 렌더링 콘텐츠의 동적 스크래핑 구현
  • SerpAPI를 Fallback 전략으로 채택하여 비정형 URL 구조를 가진 프로필의 검색 성공률 제고
  • LLM(Claude Haiku)을 활용한 비정형 HTML 데이터의 정형 JSON 스키마 자동 변환 및 추출 파이프라인 구축
  • 다중 소스 데이터의 중복 제거 및 누락된 가격 정보를 상호 보완하는 데이터 병합 로직 적용
  • n8n Webhook 및 Google Sheets 연동을 통한 데이터 파이프라인의 확장성 확보

Impact

  • 기존 30~90분 소요되던 에이전트 1인당 리서치 시간을 60초 이내로 단축
  • 최대 15개의 최신 매물 리스트를 중복 제거된 정형 데이터 형태로 자동 수집

1. API 미제공 사이트 대상 설계 시 Headless Browser와 LLM 기반 Extraction을 조합한 파이프라인 검토

2. 검색 실패율을 낮추기 위해 직접 탐색과 외부 검색 엔진 API(SerpAPI 등)의 Fallback 체계 구축

3. 봇 차단 대응을 위해 주거용 프록시(Residential Proxy) 설정 가능 구조 설계

4. 데이터 소스별 신뢰도 차이를 인지하고, 상호 보완적 데이터 병합(Merge) 전략 수립

원문 읽기