피드로 돌아가기
How I Built an AI Journalist Discovery Engine with Octoparse MCP
Dev.toDev.to
AI/ML

Octoparse MCP 기반 실시간 Journalist Discovery 엔진 구축 및 60초 내 매칭 완료

How I Built an AI Journalist Discovery Engine with Octoparse MCP

Ian Taylor2026년 6월 13일5intermediate

Context

고가의 PR 도구 비용 부담과 수동 리서치에 따른 시간 낭비 문제 발생. 기존 LLM의 Hallucination 및 정적 데이터베이스의 최신성 결여로 인한 실시간 데이터 확보의 한계 직면.

Technical Solution

  • Octoparse MCP를 통한 실시간 Structured Data 추출로 정적 DB의 한계를 극복한 Pipeline 구조 설계
  • Natural Language 쿼리를 Journalist Taxonomy로 매핑하는 HungQueryResolver의 Three-Strike Escalation 아키텍처 도입
  • Low-confidence 쿼리 발생 시 Drift Validation을 통한 사용자 의도 재확인 및 Async Escalation 기반의 검색 범위 확장 로직 구현
  • GlobalProxyManager를 활용한 100개 이상의 IP 기반 Geo-routing 레이어 설계로 지역별 데이터 추출 최적화
  • Data Warehouse 방식을 배제하고 TTL 정책(61일 후 Hard Delete)을 적용한 처리 중심의 Lean Infrastructure 운용
  • Octoparse(추출) → Claude(추론 및 스코어링) → Supabase(영속성)로 이어지는 Closed-loop Intelligence 시스템 구축

1. LLM의 할루시네이션 방지를 위해 외부 MCP 툴을 통한 Real-time Grounding 데이터 확보 여부 검토

2. 사용자 쿼리 실패 시 즉시 종료가 아닌 단계별 Escalation 전략(Direct $\rightarrow$ Validation $\rightarrow$ Async Expansion) 설계 적용

3. 데이터 저장 비용 절감과 법적 리스크 관리를 위해 저장소 중심이 아닌 Pipeline 중심의 TTL 기반 데이터 생명주기 정책 수립

원문 읽기