피드로 돌아가기
Why building a job scraper for $0.39/1,000 jobs is not about the money.
Dev.toDev.to
AI/ML

LLM 비용 최적화 및 정제 파이프라인 구축을 통한 1,000건당 $0.39 스크레이퍼 구현

Why building a job scraper for $0.39/1,000 jobs is not about the money.

Alexander Leonhard2026년 4월 14일5intermediate

Context

상용 스크레이퍼의 높은 비용과 오픈소스 도구의 커스텀 어댑터 작성 오버헤드로 인한 효율성 저하 발생. 대규모 채용 공고 데이터를 동일한 OJP v0.2 스키마로 저렴하고 빠르게 수집해야 하는 기술적 요구사항 존재.

Technical Solution

  • SHA-256 기반 Content Hashing 도입으로 변경 없는 페이지의 LLM 호출을 제거하여 재크롤링 비용 95% 절감
  • Stealth Playwright 설정을 통한 Bot Detection 우회 및 도메인별 워커 분할 병렬 처리로 Connection 충돌 방지
  • LLM의 Schema Drift를 해결하기 위해 정규화 및 Enum 매핑을 수행하는 Deterministic Sanitizer 계층 설계
  • 텍스트 추출 실패 시 Gemini Flash-latest 모델을 활용한 Vision-retry 경로를 구축하여 최종 수집 성공률 제고
  • BFS 큐 기반의 URL 탐색과 상태 저장 파일 구조를 통해 크래시 이후의 중단 지점부터 재개 가능한 파이프라인 구성

- LLM 출력의 스키마 불일치를 프롬프트 수정이 아닌 결정론적 Sanitizer 코드로 해결할 것 - 반복적인 데이터 수집 시 Content Hash 비교를 통해 불필요한 API 호출을 차단할 것 - 대규모 스크레이핑 시 단순 Round-robin이 아닌 도메인별 샤딩을 통해 대상 서버의 차단 위험을 분산할 것

원문 읽기