피드로 돌아가기
Dev.toAI/ML
원문 읽기
GitHub Public API 기반 Series A 예측 모델로 적중률 68% 달성
I wrote a 104-page book on the GitHub signals that predict Series A rounds — free download
AI 요약
Context
스타트업 투자 라운드 예측을 위한 고가의 데이터 라이선스 및 폐쇄적 네트워크 의존성 존재. 공개된 GitHub 메타데이터만으로 투자 징후를 정량화하려는 시도.
Technical Solution
- REST API 단일 엔드포인트를 활용한 $0 비용의 데이터 수집 파이프라인 설계
- Commit-velocity +200% 가속 및 14일 윈도우 기반의 2단계 검증 로직 구현
- 120일 Look-back 기간 설정 및 Bot-filter 적용을 통한 순수 Contributor 유입량 산출
- Terraform, Helm 등 Infrastructure Repository 구축 여부를 통한 운영 준비 상태 판별
- Star-velocity와 Commit-velocity의 디커플링 분석을 통한 인위적 관심도 조작 식별
- Libraries.io 연동을 통한 다중 패키지 매니저(npm, PyPI 등) 기반 Downstream 의존성 추적
Impact
- 219개 스타트업 대상 테스트 결과 68%의 예측 적중률 기록
- 투자 발표 전 평균 33일의 Lead Time 확보
- 약 100라인의 Python 코드로 구현 가능한 경량화된 분석 아키텍처 검증
Key Takeaway
특정 도메인의 비즈니스 시그널을 파악하기 위해 고가의 상용 데이터셋 대신, 오픈소스 생태계의 행위 로그를 정량적 지표로 변환하여 예측 모델로 활용하는 데이터 엔지니어링 접근법.
실천 포인트
1. Public API의 Rate Limit을 고려한 Paginated Fetcher 및 Metadata Cache 설계 검토
2. 단순 수치 증가가 아닌 윈도우 기반의 가속도(Acceleration) 및 상관관계 분석 도입
3. 데이터 노이즈 제거를 위한 Bot-filtering 및 Outlier 제거 로직 필수 적용