GitHub가 Copilot 사용자 데이터(코드 스니펫, 입출력, 컨텍스트)를 AI 모델 학습에 사용하기로 정책 변경하며 옵트아웃 방식 도입

GitHub hits CTRL-Z, decides it will train its AI with user data after all

Thomas Claburn2026년 3월 26일6분intermediate

AI 요약

Context

GitHub Copilot의 기반이 되는 OpenAI Codex는 공개된 GitHub 코드로 사전 학습되었으나, 현재 상용 Copilot 사용자의 상호작용 데이터는 학습에 미사용 중이었다. GitHub는 사용자 인터랙션 데이터를 학습에 포함하면 모델 성능이 개선될 수 있다고 판단했다.

Technical Solution

수집 데이터 범위 정의: 모델 입출력, 수정된 제안, 코드 스니펫, 파일명, 저장소 구조, Copilot 피처 상호작용(채팅 포함), 사용자 피드백(좋아요/싫어요 평가) 수집
옵트아웃 메커니즘 구현: /settings/copilot/features의 "Allow GitHub to use my data for AI model training" 옵션을 통해 사용자가 비활성화 가능
계약 기반 예외 설정: Copilot Business, Copilot Enterprise, 학생/교사 사용자는 계약 조건에 따라 데이터 수집 제외
정책 적용 범위: Copilot Free, Pro, Pro+ 사용자 대상으로 2024년 4월 24일부터 시행
Private 저장소 데이터 포함: 사용자가 모델 학습을 활성화한 경우, private 저장소 코드 스니펫도 수집 대상에 포함

Impact

GitHub는 Microsoft 직원 상호작용 데이터를 학습에 포함했을 때 AI 제안 수락률이 증가했다고 주장하나, 구체적 수치는 미제시. 커뮤니티 반응은 부정적으로 39개 댓글 중 GitHub 임원(Martin Woodward)을 제외하고는 지지 의견 없음. 이모지 투표 결과 59개의 부정(thumbs-down) vs 3개의 긍정(rocket ships).

Key Takeaway

AI 업계는 명시적 동의 없이 수집된 데이터 위에 구축되어 있으므로, 사후 정책 변경만으로는 윤리적 우려를 완전히 해결할 수 없다. 사용자 신뢰를 유지하려면 데이터 수집 정책의 투명성과 실질적인 제어권 제공이 필수적이다.

실천 포인트

AI 서비스를 제공하는 회사에서 사용자 데이터 기반 모델 개선을 추진할 때는, 옵트아웃 방식보다는 사전 동의(opt-in) 메커니즘을 설계하고 수집 데이터 범위를 명확히 정의하여 사용자 신뢰를 확보하는 것이 장기적으로 더 효과적이다.

태그

#User Consent #Data Privacy #AI Training #GitHub Copilot

원문 읽기