피드로 돌아가기
Dev.toBackend
원문 읽기
6.9만 개 Claude Code Skills 인덱싱을 위한 자동화 파이프라인 구축
How I indexed 69,000 Claude Code skills (and what I learned doing it)
AI 요약
Context
분산된 SKILL.md 파일의 파편화와 통합 카탈로그 부재로 인한 발견 가능성 저하 문제 발생. 정형화된 API나 공식 스펙의 부재 및 낮은 품질의 데이터 혼재로 인한 필터링 체계 필요성 증대.
Technical Solution
- 24개 이상의 다양한 데이터 소스를 크롤링하는 Python 기반 Miner 설계 및 일 단위 자동 갱신 파이프라인 구축
- GitHub API의 1,000건 결과 제한 극복을 위해 101가지 쿼리 변형을 활용한 데이터 슬라이싱 기법 적용
- 단순 인기 지표를 배제하고 Anti-trigger 구문 존재 여부와 Frontmatter 밀도를 기반으로 한 Content-based Admission Scoring 모델 도입
_safe_section()try-block 구조를 통한 개별 엔드포인트 장애가 전체 파이프라인으로 전이되는 것을 방지하는 결함 격리 설계- 정적 페이지(Netlify)와 동적 API/Embed 엔드포인트(Cloudflare Workers)를 분리하여 읽기 성능과 확장성을 최적화한 하이브리드 배포 구조 채택
Impact
- 총 69,369개의 SKILL.md 파일 인덱싱 달성 및 24시간 이내 신규 스킬 반영 체계 구축
Key Takeaway
데이터의 정직성을 보장하기 위해 외부 영향(인기, 비용)을 배제한 내부 콘텐츠 신호 중심의 랭킹 시스템 설계 원칙 확인.
실천 포인트
- API Rate Limit 극복을 위한 쿼리 세분화(Slicing) 전략 검토 - 외부 API 의존도가 높은 크롤러 설계 시 개별 섹션 단위의 에러 핸들링 및 격리 구조 적용 - 데이터 품질 평가 시 긍정적 신호뿐만 아니라 '제한 사항(Negative Space)' 명시 여부를 가점 항목으로 활용