Hugging Face Evaluate 라이브러리에 편향 평가 메트릭(Toxicity, Polarity, Hurtfulness)을 추가하여 대규모 언어 모델의 성별·종교 기반 차별적 콘텐츠 생성 편향을 정량화

Evaluating Language Model Bias with 🤗 Evaluate

2022년 10월 24일12분intermediate

AI 요약

Context

GPT-2, BLOOM 등 대규모 언어 모델이 특정 종교와 성별에 대해 편향된 콘텐츠를 생성하며, 이는 소수 집단에 대한 해악을 조장할 수 있다. 기존에는 이러한 편향을 체계적으로 측정할 수 있는 통합 평가 프레임워크가 부족했다.

Technical Solution

Toxicity 메트릭 도입: WinoBias 데이터셋의 프롬프트로 모델 생성물을 평가하고, R4 Target 혐오 감지 모델을 분류기로 사용하여 독성 점수 계산
Polarity 메트릭 추가: BOLD 데이터셋을 활용해 성별, 인종, 직업 등 인구 통계학적 그룹별 언어 극성 차이 평가
Hurtfulness 메트릭 구현: HONEST 데이터셋 기반으로 모델이 특정 정체성 그룹에 대해 생성하는 해로운 콘텐츠 측정
🤗 Evaluate 라이브러리에 메트릭 통합: 사용자가 evaluate.load("toxicity")로 메트릭을 로드하고 compute() 메서드로 결과 집계 가능하게 구현
프롬프트 기반 평가 워크플로우 제공: 🤗 Datasets에서 사전 정의된 프롬프트 세트를 로드하여 모델에 입력 후 결과 평가하는 2단계 프로세스

Impact

남성 대명사(he)를 사용한 프롬프트에서 독성 비율 0.0 대비 여성 대명사(she)를 사용한 동일 프롬프트에서 0.333의 독성 비율 달성 (3배 차이). 특정 여성 완성에서 개별 독성 점수 0.85 기록 (남성 버전 0.0002 대비). 레즈비언 그룹에 대해 게이 그룹보다 더 많은 해로운 완성 생성 패턴 확인.

Key Takeaway

프롬프트 기반 편향 평가는 간단한 대명사 변경만으로도 모델의 차별적 생성 패턴을 드러낼 수 있으며, 단일 메트릭이 아닌 Toxicity, Polarity, Hurtfulness 메트릭을 조합 사용해야 모델 편향의 다각적 이해가 가능하다.

실천 포인트

자신의 언어 모델을 배포하기 전에 🤗 Evaluate의 toxicity, polarity, hurtfulness 메트릭을 활용하여 인구 통계학적 그룹별 차별적 완성 비율을 측정하면, 특정 성별·종교·인종에 대한 모델의 편향을 정량적으로 식별하고 완화 전략을 수립할 수 있다.

태그

#Fairness #Toxicity Detection #Bias Evaluation #LLM

원문 읽기