Hugging Face가 6가지 윤리 카테고리 태그와 커뮤니티 기반 검증 체계를 도입해 개방형 ML 아티팩트의 잠재적 해악을 체계적으로 식별 및 제어

Ethics and Society Newsletter #3: Ethical Openness at Hugging Face

2023년 3월 30일7분intermediate

AI 요약

Context

ML 모델이 고도화되면서 유해하거나 의도하지 않은 결과물을 생성할 가능성이 증가했고, 특히 소수 커뮤니티에 미치는 해악이 맥락에 따라 상이하게 나타났다. 개방형 개발의 이점과 위험 제어 사이의 긴장을 해결할 구체적인 메커니즘이 필요했다.

Rigorous, Consentful, Socially Conscious, Sustainable, Inclusive, Inquisitive의 6가지 윤리 카테고리를 기반한 태깅 시스템 도입: 커뮤니티가 제출한 Spaces 분석을 통해 비전문가도 이해 가능한 용어로 체계화
커뮤니티 플래깅 기능 구현: ML 아티팩트 또는 커뮤니티 콘텐츠(모델, 데이터셋, Space, 토론)가 콘텐츠 가이드라인 위반 여부를 커뮤니티가 직접 판단
"Not For All Audiences" 태그 추가: 모델/데이터 카드 메타데이터에 태그를 추가하고 저장소 방문 시 팝업으로 폭력/성인 콘텐츠 사전 알림
최다 다운로드 모델에 대한 Model Card 확대 문서화: 사회적 영향, 편향성, 의도된 사용 사례 및 범위 밖 사용 사례를 명시
Open Responsible AI Licenses(RAIL) 도입: BLOOM, BigCode 등 LLM에 적용하여 모델 사용 조건 명시
커뮤니티 토론 보드 모니터링: 행동 강령 준수 여부를 지속적으로 감시
오용/악용 추적 연구: 가장 높은 위험도를 가진 모델과 데이터셋을 식별하고 추적

개방 과학 환경에서 안전성을 확보하려면 "모두 허용" 또는 "모두 차단"이라는 이분법적 접근보다는, 아티팩트의 출처·개발 방식·사용 이력을 추적하면서 다양한 배경의 관점을 포함하는 커뮤니티 기반 검증 프로세스가 핵심이다.

실천 포인트

오픈소스 ML 플랫폼을 운영하는 팀은 단순한 차단 정책 대신, 커뮤니티 플래깅 → 투명한 태깅 → 콘텐츠 경고 팝업의 3단계 검증 체계를 구현하면 개방성을 유지하면서도 유해 콘텐츠 노출을 사전에 제어할 수 있다.

태그