피드로 돌아가기
repo-slopscore: 커밋 기록 분석으로 Git 저장소의 AI/LLM 기여 감지
GeekNewsGeekNews
DevOps

repo-slopscore: 커밋 기록 분석으로 Git 저장소의 AI/LLM 기여 감지

3,058개 Git 저장소의 커밋 기록 분석을 통한 AI 기여 감지 시스템

neo2026년 6월 14일7intermediate

Context

오픈소스 프로젝트 내 LLM 생성 코드의 급증으로 인한 코드 품질 저하 및 저작권 불투명성 문제 발생. 기존의 정적 분석 방식은 코드 패턴만 분석하여 실제 기여 주체와 맥락을 파악하는 데 한계 존재.

Technical Solution

  • Git Commit History 기반의 메타데이터 분석을 통한 AI 기여 신호 추출 구조 설계
  • Co-authored-by 주석 및 LLM 관련 특정 키워드(예: agents.md) 탐색 로직 구현
  • GitHub, Codeberg, Bitbucket 등 멀티 Git 호스팅 도메인 지원을 위한 URL 정규화 처리
  • 단순 유무 판별을 넘어 발견된 신호의 개수와 빈도를 기반으로 한 정량적 스코어링 알고리즘 적용
  • 탐지된 신호의 실제 커밋 시점과 내용을 사용자에게 직접 노출하여 오탐(False Positive) 검증 가능 구조 채택

Impact

  • 총 3,058개의 저장소 스캔 완료
  • nixpkgs 저장소 내 1,016,046개 커밋 중 228개의 AI 기여 신호를 식별하여 0.022%의 기여율 산출

Key Takeaway

코드 본문의 패턴 분석보다 Git 메타데이터 및 커밋 메시지라는 구조화된 기록을 활용하는 것이 기여 주체 식별에 더 효율적이며, 정량적 지표 제공 시 반드시 원본 근거를 함께 제시하여 데이터의 신뢰성을 확보해야 함.


- 프로젝트 내 AI 기여물 식별을 위해 Git Trailer(Co-authored-by) 표준 준수 여부 확인 - 자동화된 스캔 도구 도입 시 단순 스코어링보다 오탐 제거를 위한 원본 데이터 매핑 경로 확보 - 다양한 Git 호스팅 환경을 고려한 URL 정규화 및 정제 파이프라인 구축 검토

원문 읽기