피드로 돌아가기
The RegisterAI/ML
원문 읽기
30만 고객사 데이터 파이프라인 기반 AI 모델 고도화 전략
Atlassian’s new data collection policy protects rich customers while AI eats the rest
AI 요약
Context
사용자 프롬프트 응답 정확도 향상 및 Agentic Workflow 최적화를 위한 대규모 학습 데이터 확보 필요성 증대. 기존의 파편화된 데이터 구조를 넘어 실제 워크플로우 기반의 정교한 데이터셋 구축을 통한 AI 성능 개선 도모.
Technical Solution
- Metadata와 In-app Data로 구분한 계층적 데이터 수집 체계 설계
- PII 제거 및 Aggregation을 통한 De-identified 데이터 처리 파이프라인 구축
- License Tier 및 Compliance(HIPAA, GovCloud) 기반의 세분화된 Data Collection Policy 적용
- BYOK(Bring Your Own Key) 및 Isolated Cloud 환경에 대한 데이터 수집 원천 차단 구조 설계
- 데이터 삭제 요청 시 30일 이내 Dataset 제거 및 90일 이내 Model Re-training을 보장하는 데이터 생명주기 관리 로직 구현
- Confluence의 Semantic Similarity Score 및 Jira의 Story Points 등 도메인 특화 메타데이터 추출 로직 적용
실천 포인트
- AI 학습 데이터 수집 시 License Tier별 Opt-out 권한 및 법적 규제(HIPAA 등) 준수 여부 검토 - PII 제거 프로세스를 포함한 데이터 비식별화 파이프라인의 자동화 수준 확인 - 데이터 삭제 요청 시 모델 재학습(Re-training)까지 이어지는 엔드투엔드 파이프라인 구축 여부 점검 - BYOK 등 보안 요구사항이 높은 고객을 위한 데이터 격리 아키텍처 설계 반영