피드로 돌아가기
GitHub BlogAI/ML
원문 읽기
Updates to GitHub Copilot interaction data usage policy
GitHub가 Copilot Free/Pro/Pro+ 사용자의 상호작용 데이터를 모델 학습에 활용하도록 정책 변경해 Microsoft 직원 데이터로 검증된 다국어 수용률 향상 재현 시도
AI 요약
Context
GitHub Copilot의 초기 모델은 공개 데이터와 수작업으로 제작된 코드 샘플로만 학습되었다. Microsoft 직원의 상호작용 데이터를 학습에 활용한 결과 여러 언어에서 수용률이 향상되었으나, 더 다양한 개발 워크플로우를 포괄하려면 더 많은 실제 데이터가 필요했다.
Technical Solution
- 수집 대상 데이터 범위 정의: 사용자가 수용하거나 수정한 출력물, Copilot에 전송된 입력값, 커서 위치의 코드 컨텍스트, 주석·문서, 파일명·리포지토리 구조, Copilot 기능 상호작용(채팅, 인라인 제안 등), 피드백(좋음/싫음 평가) 수집
- 데이터 사용 범위 제한: Copilot Business, Copilot Enterprise, 엔터프라이즈 소유 리포지토리의 상호작용 데이터는 제외
- 옵트아웃 메커니즘 구현: 설정의 Privacy 섹션에서 모델 학습 참여 거부 가능, 기존 거부 설정 보존
- 데이터 공유 범위 제한: 수집된 데이터를 GitHub 계열사(Microsoft 포함)와만 공유, 제3자 AI 모델 제공자와는 공유 안 함
- 2024년 4월 24일부터 정책 발효: 신규 사용자는 자동 포함, 기존 거부 사용자는 선택권 유지
Impact
Microsoft 직원 데이터 활용으로 여러 언어에서 수용률이 향상되었음을 확인했다.
Key Takeaway
AI 모델의 성능 향상은 공개 데이터에서 실제 프로덕션 상호작용 데이터로 학습 소스를 전환할 때 달성되며, 이때 사용자 개인정보 보호를 위한 명확한 옵트아웃 메커니즘과 데이터 사용 범위 제한이 필수적이다.
실천 포인트
AI 보조 개발 도구를 제공하는 팀에서 모델 성능을 향상시키려면 내부 직원 데이터로 먼저 효과를 검증한 후 외부 사용자 데이터를 단계적으로 추가하되, 반드시 명확한 옵트아웃 정책과 데이터 사용 범위 명시를 통해 사용자 신뢰를 확보해야 한다.