피드로 돌아가기
Training Data Provenance: The Manifest Diff That Explains the Hash
Dev.toDev.to
AI/ML

Byte Identity를 넘어 Process Lineage를 증명하는 Manifest Diff 설계

Training Data Provenance: The Manifest Diff That Explains the Hash

AI x Crypto Systems2026년 5월 25일9intermediate

Context

기존 모델 카드의 Dataset Hash 기반 검증은 데이터의 Byte Identity만 보장함. 이로 인해 Opt-out 레코드가 포함된 원인과 같은 데이터 수집 및 정제 프로세스의 무결성을 추적할 수 없는 한계 존재.

Technical Solution

  • 단순 Hash 기록에서 탈피하여 데이터 생애주기 전반을 기록하는 Manifest Diff 구조 도입
  • Source Records에 단순 파일명이 아닌 버전 및 날짜 정보를 포함하여 데이터 시점 고정
  • 단순 변환 목록을 PII Redaction, Opt-out Removal 등 세분화된 Transform Pipeline으로 명시하여 처리 로직 가시화
  • Exclusion Report와 Reviewer Status를 Manifest에 결합하여 데이터 승인 프로세스의 책임 소재 명확화
  • W3C PROV 모델을 적용하여 Entity(데이터), Activity(변환), Agent(검토자) 간의 관계를 정의하는 아키텍처 설계
  • Manifest Hash를 모델 카드에 연결하여 데이터 스토리를 즉시 재구성 가능한 포인터 체계 구축

1. 모델 카드에 데이터셋 해시뿐만 아니라 Manifest 해시를 포함했는가?

2. 데이터 정제 단계에서 Opt-out 리스트와 제외 보고서(Exclusion Report)가 명시적으로 기록되었는가?

3. 단순한 'Internal' 표기 대신 구체적인 Rights Policy 버전이 명시되어 있는가?

4. 리뷰어의 상태와 해결되지 않은 리스크(Unresolved Risks)가 문서화되어 추적 가능한가?

원문 읽기