피드로 돌아가기
I tracked 4,200 startup GitHub orgs for six months — here's what actually predicts a fundraise
Dev.toDev.to
Backend

Postgres 단일 인스턴스로 4,200개 조직의 펀딩 징후를 예측하는 고밀도 파이프라인 구축

I tracked 4,200 startup GitHub orgs for six months — here's what actually predicts a fundraise

The Data Nerd2026년 5월 4일7intermediate

Context

GitHub API 폴링 방식의 잦은 요청으로 인한 Rate Limit 도달 및 Postgres Connection Pool 고갈 문제 발생. 단순 commit volume 중심의 분석으로는 조직 규모에 따른 노이즈가 심해 실제 성장 신호를 식별하는 데 한계 노출.

Technical Solution

  • GitHub Archive의 hourly JSON dumps 스트리밍 방식으로 전환하여 API 요청 횟수를 100배 이상 절감
  • events_raworgs_watchlist라는 최소화된 2개 테이블 구조를 통해 데이터 모델 복잡도 제거
  • Materialized View를 활용한 주간 지표 집계로 6개월치 데이터에 대한 쿼리 성능 최적화 및 90초 내 갱신 완료
  • 절대적 수치가 아닌 조직별 6개월 z-score 기반의 Commit Velocity Change 측정으로 개별 조직의 성장 가속도 포착
  • 14일 윈도우의 Commit Velocity, 30일 윈도우의 Contributor Delta 및 New-repo Creation Rate의 동시 가속 여부를 판단하는 복합 시그널 설계

Impact

  • 4,200개 조직의 데이터를 단일 Postgres 인스턴스(약 18GB)에서 처리하는 경량 스택 구현
  • 가속 신호가 포착된 조직의 약 70%가 6주 이내에 펀딩 발표를 하는 예측 정확도 달성
  • Series A 펀딩의 경우 3~6주의 리드 타임 확보

Key Takeaway

데이터 규모와 복잡성이 증가할 때 정교한 스키마나 분산 인프라 도입보다 데이터 획득 방식의 전환과 핵심 지표의 통계적 정의(z-score)가 더 효율적인 해결책이 됨


- API 폴링으로 인한 Rate Limit 발생 시 전체 덤프 파일의 스트리밍 처리 가능 여부 검토 - 단순 합계(Count) 지표보다 변화율(Velocity)과 표준 점수(z-score)를 활용한 이상 징후 탐지 적용 - 복잡한 Junction Table 대신 JSONB 타입과 Materialized View를 조합한 단순 스키마 우선 적용

원문 읽기