피드로 돌아가기
GitHub Copilot Is Training on Your Private Code Now. You Probably Didn't Notice.
Dev.toDev.to
Security

GitHub이 Copilot 상호작용 데이터를 2024년 4월 24일부터 AI 모델 학습에 사용하기로 정책 변경하면서 비공개 저장소의 코드 스니펫도 포함

GitHub Copilot Is Training on Your Private Code Now. You Probably Didn't Notice.

Alan West2026년 3월 26일8intermediate

Context

GitHub Copilot의 AI 모델 개선을 위해 사용자 상호작용 데이터의 범위를 확대할 필요가 있었다. 기존에는 수용하거나 수정한 제안만 추적했으나, 더 다양한 학습 데이터를 확보해야 했다.

Technical Solution

  • 상호작용 데이터 정의 확대: 수용/수정한 코드 스니펫뿐 아니라 커서 주변 코드 컨텍스트, 주석, 파일명, 저장소 구조, 네비게이션 패턴, Chat 대화, 평가 피드백을 포함
  • 비공개 저장소 코드 수집: 제안 생성 시 전송되는 비공개 저장소 코드를 "저장된 코드"가 아닌 "상호작용 데이터"로 분류하여 학습 파이프라인에 포함
  • 옵트아웃 기본값 설정: Privacy 설정에서 "Allow GitHub to use my data for product improvements"를 기본적으로 활성화
  • Enterprise/Business 계정 제외: 기업용 계정은 이 정책 대상에서 제외하여 법적 리스크 완화
  • 개인 계정의 기업 저장소 데이터 포함: 개인 Copilot Free 계정이 기업 저장소에 접근할 때의 상호작용 데이터도 학습에 사용

Key Takeaway

엔지니어링 조직에서는 개인 개발자 계정의 기업 코드 접근에 대한 데이터 정책 갭을 인식하고, Enterprise 또는 Business 플랜 도입 여부를 검토해야 한다. 옵트아웃 기본값 정책에서는 대다수 사용자가 설정을 확인하지 않으므로 조직 차원의 정책 강제가 필수다.


소유 IP를 다루는 기업의 엔지니어링 팀에서는 GitHub Copilot Free 사용 시 Settings > Copilot > Privacy에서 "Allow GitHub to use my data for product improvements" 옵션을 명시적으로 비활성화해야 하며, 비공개 저장소에서도 커서 주변 코드 컨텍스트가 학습 데이터로 수집될 수 있음을 인지해야 한다. 장기적으로는 Enterprise/Business 계정으로 마이그레이션하여 이 정책 대상에서 제외되는 것을 권장한다.

원문 읽기
GitHub Copilot Is Training on Your Private Code Now. You Probably Didn't Notice. | Devpick