피드로 돌아가기
Dev.toAI/ML
원문 읽기
Byte Identity를 넘어 Process Lineage를 증명하는 Manifest Diff 설계
Training Data Provenance: The Manifest Diff That Explains the Hash
AI 요약
Context
기존 모델 카드의 Dataset Hash 기반 검증은 데이터의 Byte Identity만 보장함. 이로 인해 Opt-out 레코드가 포함된 원인과 같은 데이터 수집 및 정제 프로세스의 무결성을 추적할 수 없는 한계 존재.
Technical Solution
- 단순 Hash 기록에서 탈피하여 데이터 생애주기 전반을 기록하는 Manifest Diff 구조 도입
- Source Records에 단순 파일명이 아닌 버전 및 날짜 정보를 포함하여 데이터 시점 고정
- 단순 변환 목록을 PII Redaction, Opt-out Removal 등 세분화된 Transform Pipeline으로 명시하여 처리 로직 가시화
- Exclusion Report와 Reviewer Status를 Manifest에 결합하여 데이터 승인 프로세스의 책임 소재 명확화
- W3C PROV 모델을 적용하여 Entity(데이터), Activity(변환), Agent(검토자) 간의 관계를 정의하는 아키텍처 설계
- Manifest Hash를 모델 카드에 연결하여 데이터 스토리를 즉시 재구성 가능한 포인터 체계 구축
실천 포인트
1. 모델 카드에 데이터셋 해시뿐만 아니라 Manifest 해시를 포함했는가?
2. 데이터 정제 단계에서 Opt-out 리스트와 제외 보고서(Exclusion Report)가 명시적으로 기록되었는가?
3. 단순한 'Internal' 표기 대신 구체적인 Rights Policy 버전이 명시되어 있는가?
4. 리뷰어의 상태와 해결되지 않은 리스크(Unresolved Risks)가 문서화되어 추적 가능한가?