피드로 돌아가기
How to Use rs-trafilatura with Firecrawl
Dev.toDev.to
Backend

Firecrawl과 rs-trafilatura 조합으로 정교한 웹 데이터 추출 구현

How to Use rs-trafilatura with Firecrawl

Murrough Foley2026년 4월 3일4intermediate

Context

Firecrawl의 기본 Markdown 출력은 단순 아티클 외 페이지에서 노이즈가 다수 포함되는 한계 존재. 제품 페이지의 내비게이션이나 포럼의 UI 요소까지 텍스트로 추출되는 문제 발생. 추출 결과에 대한 신뢰도를 판단할 정량적 지표가 부재한 구조.

Technical Solution

  • Firecrawl API 요청 시 formats 옵션에 html을 추가하여 원본 HTML 소스를 확보하는 전략
  • rs-trafilatura 라이브러리를 사용하여 HTML 기반의 페이지 유형 인식 및 최적화된 콘텐츠 추출 방식
  • 제품, 포럼, 서비스 페이지 등 도메인별 특성에 맞춘 메타데이터 및 본문 분리 로직 적용
  • JSON-LD 구조화 데이터 활용 및 멀티 캔디데이트 머지 기술을 통한 섹션별 콘텐츠 통합 설계
  • 0.0에서 1.0 사이의 extraction_quality 점수를 통해 추출 결과의 신뢰도를 정량적으로 검증하는 메커니즘
  • favor_precision 또는 favor_recall 옵션을 통한 노이즈 제거 수준의 유연한 제어 구조

Key Takeaway

단순한 텍스트 변환보다 HTML 구조 분석 기반의 페이지 유형 인식이 데이터 정제 효율을 결정하는 핵심 요소임. 데이터의 정밀도와 재현율 사이의 트레이드오프를 설정 가능한 파라미터로 관리하는 설계 원칙이 중요함.


비정형 웹 페이지에서 고순도 데이터 추출이 필요할 때 Firecrawl의 HTML 모드와 rs-trafilatura를 연동하여 사용할 것

원문 읽기