피드로 돌아가기
I Replaced a $200/Month AI Training Data Pipeline with 50 Lines of Python
Dev.toDev.to
Backend

I Replaced a $200/Month AI Training Data Pipeline with 50 Lines of Python

데이터 과학팀이 월 200달러 유료 연구논문 모니터링 서비스를 arXiv + Crossref API를 활용한 50줄 Python 스크립트로 대체

Alex Spinov2026년 3월 24일8intermediate

Context

ML팀들은 새로운 연구논문 추적의 필요성이 있으나, Semantic Scholar API는 요청 제한이 있고, Google Scholar는 공식 API가 없으며, Iris.ai, Connected Papers Pro 같은 유료 서비스는 월 100~500달러의 비용을 요구합니다. 기존 유료 서비스는 기본적으로 arXiv 쿼리, 키워드 필터링, 이메일 형식 변환만 수행합니다.

Technical Solution

  • arXiv API를 활용해 2.4M+ 논문 중 키워드 검색 및 최신순 정렬: search_arxiv() 함수로 제목, 저자, 요약(200자), 발행일, 링크 추출
  • Crossref API를 활용해 140M+ 피어리뷰 논문 검색: search_crossref() 함수로 제목, 저자(상위 3명), 저널명, DOI, 인용 횟수 추출
  • 두 API 결과를 daily_research_digest() 함수로 통합해 프리프린트(arXiv) + 피어리뷰 논문(Crossref)을 한 곳에 표시
  • cron을 통한 자동화: 매일 08:00에 research_digest.py 실행 및 로그 저장
  • Slack/Discord 연동: requests.post()로 구조화된 메시지 블록을 Webhook을 통해 전송

Impact

월 200달러 유료 서비스 비용 제거(비용: 200달러/월 → 0달러/월), 요청 제한 없음(Semantic Scholar의 3 queries/min 제한 초과), 커스터마이징 가능(검색 키워드, 필터링 로직 자유롭게 수정), 5개 arXiv + 10개 Crossref 논문을 한 번의 실행으로 수집

Key Takeaway

공개 API(arXiv, Crossref)를 직접 조합하면 유료 서비스와 동일한 기능을 최소한의 코드로 구현할 수 있으며, 특히 'show me new papers about X' 같은 단순한 요구사항은 비용 지불보다는 API 조합으로 해결하는 것이 효율적입니다.


ML/데이터 과학팀에서 논문 추적 자동화가 필요할 때, requests + xml.etree를 활용해 arXiv(프리프린트) + Crossref(피어리뷰)를 동시 쿼리하고 cron + Slack Webhook으로 자동화하면 월 100~200달러 유료 서비스 구독 대신 유지보수 비용 거의 없이 동일 기능을 확보할 수 있습니다.

원문 읽기
I Replaced a $200/Month AI Training Data Pipeline with 50 Lines of Python | Devpick