피드로 돌아가기
Source Score: Using AI to automate addition of new sources
Dev.toDev.to
DevOps

Firecrawl과 OpenRouter 기반 뉴스 소스 자동 수집 파이프라인 구축

Source Score: Using AI to automate addition of new sources

Amit Singh2026년 5월 11일9intermediate

Context

수동 Copy-Paste 방식의 뉴스 소스 추가 프로세스로 인한 운영 효율 저하 및 최신성 유지 한계 발생. 정형화되지 않은 HTML 구조와 LLM 응답의 불확실성으로 인한 데이터 정제 비용 증가가 주요 병목 지점임.

Technical Solution

  • Firecrawl SDK를 통한 웹 페이지의 Markdown 변환으로 LLM 토큰 효율성 및 데이터 전처리 최적화
  • OpenRouter API를 활용한 3종의 Free-tier 모델(gemma-4-31b-it, nemotron-3-nano-omni-30b, gemma-4-26b) Fallback 전략 설계로 API 가용성 확보
  • 1차 URL 추출 후 Web-search Tool을 이용한 2차 검증 단계를 거쳐 LLM Hallucination 및 잘못된 URL 생성 방지
  • GitHub Actions의 Scheduled Trigger를 통해 스크래핑-추출-검증-PR 생성까지 이어지는 완전 자동화 CI Workflow 구현
  • YAML 파일 기반의 Source Document 생성 및 기존 Validation Workflow 연동을 통한 데이터 정합성 보장

- LLM 응답의 가용성을 높이기 위해 서로 다른 아키텍처의 모델들을 Fallback 리스트로 구성했는가? - LLM이 생성한 식별자(URL, ID 등)를 외부 API나 Search Tool로 재검증하는 프로세스를 포함했는가? - HTML 대신 Markdown 형식을 사용하여 LLM의 컨텍스트 이해도를 높였는가?

원문 읽기