6.9만 개 Claude Code Skills 인덱싱을 위한 자동화 파이프라인 구축

How I indexed 69,000 Claude Code skills (and what I learned doing it)

Adam Lankamer2026년 5월 24일9분intermediate

AI 요약

Context

분산된 SKILL.md 파일의 파편화와 통합 카탈로그 부재로 인한 발견 가능성 저하 문제 발생. 정형화된 API나 공식 스펙의 부재 및 낮은 품질의 데이터 혼재로 인한 필터링 체계 필요성 증대.

Technical Solution

24개 이상의 다양한 데이터 소스를 크롤링하는 Python 기반 Miner 설계 및 일 단위 자동 갱신 파이프라인 구축
GitHub API의 1,000건 결과 제한 극복을 위해 101가지 쿼리 변형을 활용한 데이터 슬라이싱 기법 적용
단순 인기 지표를 배제하고 Anti-trigger 구문 존재 여부와 Frontmatter 밀도를 기반으로 한 Content-based Admission Scoring 모델 도입
_safe_section() try-block 구조를 통한 개별 엔드포인트 장애가 전체 파이프라인으로 전이되는 것을 방지하는 결함 격리 설계
정적 페이지(Netlify)와 동적 API/Embed 엔드포인트(Cloudflare Workers)를 분리하여 읽기 성능과 확장성을 최적화한 하이브리드 배포 구조 채택

Impact

총 69,369개의 SKILL.md 파일 인덱싱 달성 및 24시간 이내 신규 스킬 반영 체계 구축

Key Takeaway

데이터의 정직성을 보장하기 위해 외부 영향(인기, 비용)을 배제한 내부 콘텐츠 신호 중심의 랭킹 시스템 설계 원칙 확인.

실천 포인트

- API Rate Limit 극복을 위한 쿼리 세분화(Slicing) 전략 검토 - 외부 API 의존도가 높은 크롤러 설계 시 개별 섹션 단위의 에러 핸들링 및 격리 구조 적용 - 데이터 품질 평가 시 긍정적 신호뿐만 아니라 '제한 사항(Negative Space)' 명시 여부를 가점 항목으로 활용

태그

#Web Crawling #Cloudflare Workers #Content Scoring #Indexing #Data Pipeline

원문 읽기