피드로 돌아가기
How to Use rs-trafilatura with crawl4ai
Dev.toDev.to
AI/ML

LLM 친화적 데이터 추출을 위한 rs-trafilatura 전략 도입

How to Use rs-trafilatura with crawl4ai

Murrough Foley2026년 4월 3일5intermediate

Context

기본 Markdown 변환 파이프라인의 페이지 유형 인식 한계. 단순 변환으로 인한 데이터 품질 및 정제 효율 저하 문제.

Technical Solution

  • RsTrafilaturaStrategy를 도입하여 페이지 유형별 맞춤형 콘텐츠 추출 구조 설계
  • PyO3 기반 Rust 엔진을 통해 서브프로세스 없이 효율적인 HTML 분석 수행
  • favor_precisionfavor_recall 옵션으로 데이터 추출의 정밀도와 재현율 간의 균형 조절
  • extraction_quality 점수를 기반으로 저품질 데이터만 LLM 추출 전략으로 라우팅하는 하이브리드 파이프라인 구축
  • output_markdown=True 설정을 통해 GitHub Flavored Markdown 형식의 구조화된 데이터 확보
  • CrawlerRunConfig에 전략을 주입하여 crawl4ai의 비동기 루프를 방해하지 않는 스레드 기반 추출 방식 적용

Impact

  • WCEB 벤치마크 기준 품질 점수 0.80 미만 페이지를 neural fallback으로 처리하여 F1 스코어 향상
  • 개발 셋 F1 스코어 0.859에서 0.862로 상승
  • 홀드아웃 테스트 셋 F1 스코어 0.893에서 0.910으로 상승

Key Takeaway

휴리스틱 기반의 고속 추출과 고비용 LLM 추출을 품질 점수로 결합하여 효율성과 정확도를 동시에 확보하는 계층적 설계 전략.


추출 품질 점수(extraction_quality) 0.80 미만 데이터에 대해서만 LLM Fallback을 적용하여 비용 최적화 및 정확도 개선을 도모할 것

원문 읽기
How to Use rs-trafilatura with crawl4ai | Devpick