피드로 돌아가기
I scanned 1.27M DEV articles to find the books developers actually recommend.
Dev.toDev.to
Backend

1.27M개 아티클 스캔을 통한 데이터 기반 개발 도서 랭킹 시스템 구축

I scanned 1.27M DEV articles to find the books developers actually recommend.

yaso2026년 4월 21일5intermediate

Context

개인적 취향이나 소수 전문가의 의견에 의존하는 기존 도서 추천 리스트의 편향성 문제 분석. 실제 현업 개발자들이 작성한 대규모 텍스트 데이터에서 객관적인 추천 시그널을 추출하기 위한 데이터 파이프라인 설계 필요성 대두.

Technical Solution

  • 20개의 Proxy IP를 활용한 병렬 수집 구조로 2.42M개 API 엔드포인트에서 1.27M개 아티클을 29시간 만에 확보한 Corpus Collection 설계
  • ASIN, ISBN 등 Deterministic Signal과 추천 문구 기반 Heuristics, 기정의된 사전 기반 Lexical Match를 결합한 3단계 Book-Article Detection 레이어 구축
  • Fuzzy Title Matching 및 100개 이상의 수동 병합 규칙을 적용하여 중복 데이터를 제거하는 Canonicalization 프로세스 구현
  • Google Books 및 Open Library API와 대조하는 수동 리뷰 과정을 통한 99.7% 수준의 Book Precision 검증 체계 마련
  • LLM 대신 패턴 기반 탐색을 선택하여 대규모 데이터셋 처리의 결정론적 결과와 연산 효율성 확보

Impact

  • 1.27M개 아티클 중 0.99%인 12,568개 추천 아티클 식별
  • 최종 664권의 유니크한 도서 및 4,616건의 언급 횟수 정밀 추출
  • 샘플링 조사를 통한 약 99%의 Article Recall 달성

- 대규모 비정형 데이터 추출 시 Deterministic과 Heuristic 탐색을 계층화하여 정확도와 재현율을 동시에 확보할 것 - 데이터 정제 단계에서 Fuzzy Matching과 수동 병합 규칙을 병행하여 데이터 정규화 품질을 높일 것 - 정량적 지표 검증을 위해 전체 데이터 중 일부를 층화 추출하여 실제 정답셋과 대조하는 Recall Probe 프로세스를 도입할 것

원문 읽기