피드로 돌아가기
InfoQInfoQ
AI/ML

GitHub, Copilot Free/Pro 사용자의 데이터 수집 기본 설정 전환으로 AI 학습 데이터 확보함

GitHub Will Use Copilot Interaction Data from Free, Pro, and Pro+ Users to Train AI Models

Steef-Jan Wiggers2026년 4월 2일3beginner

Context

GitHub가 4월 24일부터 Copilot Free, Pro, Pro+ 사용자의 인터랙션 데이터를 AI 모델 학습에 사용한다고 발표함. 사용자는 기본적으로 동의 상태이며 수동으로 비활성화해야 함._private repository 코드는 사용자가 Copilot을 활발하게 사용할 때 수집됨. 수집된 데이터는 Microsoft를 포함한 GitHub 계열사와 공유될 수 있음.

Technical Solution

  • 데이터 수집 범위: Copilot이 수락하거나 수정된 출력, 입력된 코드 스니펫, 커서 위치 주변 코드 컨텍스트
  • 파일 이름, repository 구조, 네비게이션 패턴, 채팅 및 인라인 제안 인터랙션 수집함
  • 코드 "at rest"는 접근하지 않으며 세션 중 Copilot에 전송된 코드만 수집 범위에 포함됨
  • GitHub FAQ에 따르면 사용자는 'Allow GitHub to use my data for AI model training' 설정에서 옵트아웃 가능함
  • Business 및 Enterprise 사용자는 이번 변경에서 제외됨

Impact

커뮤니티 반응은 부정적임. 다크 패턴이라는 비판이 있고, GitHub 모바일 앱에서 옵트아웃 설정이 불가능하다는 점도 지적됨. AI 생성 코드로 인한 모델 붕괴(model collapse) 우려도 있음.

Key Takeaway

조직 내에서 개인 라이선스 Copilot 사용 시 옵트아웃이 개별 사용자 수준에서만 적용되어 팀원 한 명이 옵트아웃하지 않으면Proprietary 코드가 노출될 수 있음. GitHub는 Microsoft, Anthropic, JetBrains도 유사한 인터랙션 데이터 활용 접근법을 취한다고 밝힘.


Copilot Free 또는 Pro 사용자는 4월 24일 이전에 Copilot 설정의 'Allow GitHub to use my data for AI model training' 항목에서 옵트아웃해야 함. 조직 관리자는 팀원들에게 개인 Copilot 라이선스 사용 시 옵트아웃 여부를 점검하도록 가이드해야 함._private repository에서 Copilot을 사용할 때 수집되는 코드가 포함되므로 신중한 설정 관리가 필요함.

원문 읽기