Byte Identity를 넘어 Process Lineage를 증명하는 Manifest Diff 설계

Training Data Provenance: The Manifest Diff That Explains the Hash

AI x Crypto Systems2026년 5월 25일9분intermediate

AI 요약

Context

기존 모델 카드의 Dataset Hash 기반 검증은 데이터의 Byte Identity만 보장함. 이로 인해 Opt-out 레코드가 포함된 원인과 같은 데이터 수집 및 정제 프로세스의 무결성을 추적할 수 없는 한계 존재.

단순 Hash 기록에서 탈피하여 데이터 생애주기 전반을 기록하는 Manifest Diff 구조 도입
Source Records에 단순 파일명이 아닌 버전 및 날짜 정보를 포함하여 데이터 시점 고정
단순 변환 목록을 PII Redaction, Opt-out Removal 등 세분화된 Transform Pipeline으로 명시하여 처리 로직 가시화
Exclusion Report와 Reviewer Status를 Manifest에 결합하여 데이터 승인 프로세스의 책임 소재 명확화
W3C PROV 모델을 적용하여 Entity(데이터), Activity(변환), Agent(검토자) 간의 관계를 정의하는 아키텍처 설계
Manifest Hash를 모델 카드에 연결하여 데이터 스토리를 즉시 재구성 가능한 포인터 체계 구축

실천 포인트

1. 모델 카드에 데이터셋 해시뿐만 아니라 Manifest 해시를 포함했는가?

2. 데이터 정제 단계에서 Opt-out 리스트와 제외 보고서(Exclusion Report)가 명시적으로 기록되었는가?

3. 단순한 'Internal' 표기 대신 구체적인 Rights Policy 버전이 명시되어 있는가?

4. 리뷰어의 상태와 해결되지 않은 리스크(Unresolved Risks)가 문서화되어 추적 가능한가?

태그