피드로 돌아가기
Dev.toBackend
원문 읽기
Crossref API: Search 130M+ Research Papers Programmatically (No Key)
Crossref API를 활용해 API 키 없이 130M+ 논문 메타데이터에 접근하고 인용 네트워크 분석을 자동화하는 방법
AI 요약
Context
Google Scholar는 공개 API를 제공하지 않으며 스크래핑을 적극적으로 차단한다. 학술 논문 검색 자동화와 인용 분석이 필요한 개발자들은 공개 API 없이 연구 도구를 구축하기 어려운 상황이다.
Technical Solution
- Crossref API의 /works 엔드포인트에 GET 요청을 전송하여 쿼리 문자열(query), 행 수(rows), 정렬 기준(sort: relevance)을 매개변수로 전달해 논문 검색 실행
- DOI를 이용한 직접 조회: /works/{DOI} 엔드포인트에서 저자명, 저널명, 발행연도, 인용 횟수, 참고문헌 수, 초록, URL 등 전체 메타데이터 추출
- is-referenced-by-count 필드를 정렬 기준으로 설정하여 특정 분야의 최다 인용 논문 10개를 내림차순으로 반환
- reference 배열을 순회하여 DOI가 있는 참고문헌만 필터링하고, 인용 그래프 구성
- from-pub-date 필터 파라미터를 ISO 8601 형식(예: 2024-01-01)으로 전달해 특정 날짜 이후 발행 논문만 조회
- User-Agent 헤더에 이메일 주소를 포함하거나 mailto 파라미터를 추가하여 polite pool에 진입해 더 높은 우선순위 할당
Key Takeaway
API 키 없이 공개 학술 데이터베이스에 접근할 수 있으므로, 논문 검색, 인용 분석, 학술 도구 개발 시 초기 인프라 비용 없이 빠르게 프로토타입을 구축할 수 있다.
실천 포인트
학술 데이터 기반 서비스(문헌 추천 시스템, 인용 분석 도구, 학술 RAG)를 개발하는 엔지니어가 Crossref API의 검색, DOI 조회, 필터링, 정렬 기능을 조합하면 별도 API 인증 없이 130M+ 논문의 메타데이터와 인용 관계를 프로그래밍 방식으로 수집할 수 있다.