피드로 돌아가기
How to automatically monitor new ML research papers on Arxiv by keyword
Dev.toDev.to
AI/ML

Apify 기반 Arxiv 스크래퍼를 통한 ML 논문 모니터링 자동화 파이프라인 구축

How to automatically monitor new ML research papers on Arxiv by keyword

Siddhant Sharma2026년 6월 25일1beginner

Context

월 10,000편 이상의 Arxiv 논문 발행량으로 인한 수동 브라우징의 한계 직면. 특정 도메인 내 최신 연구 트렌드를 실시간으로 파악하기 위한 효율적인 필터링 체계 부재.

Technical Solution

  • Apify 플랫폼 기반의 전용 Arxiv Scraper를 활용한 데이터 수집 구조 설계
  • 사용자 정의 Keyword Search 기능을 통한 관심 도메인 논문 정밀 필터링
  • Scheduled Runs 설정을 통한 시간 단위의 자동 데이터 갱신 프로세스 구축
  • JSON 포맷의 Structured Output 생성을 통한 외부 시스템과의 상호 운용성 확보
  • Webhook 및 Slack Bot 연동을 통한 실시간 알림 전송 파이프라인 구성
  • API 기반의 Run-sync 요청 방식을 통한 동기적 데이터 추출 및 처리 로직 구현

1. 외부 데이터 수집 시 Apify와 같은 서버리스 스크래핑 플랫폼 검토

2. JSON 기반의 구조화된 데이터를 활용한 Slack/Notion 연동 자동화 설계

3. 대량의 데이터 소스에서 Keyword 기반의 1차 필터링 레이어 구축

원문 읽기