피드로 돌아가기
Hugging Face BlogAI/ML
원문 읽기
Hugging Face가 Text-to-Image 모델의 6가지 편향 소스(학습 데이터, 데이터 필터링, 추론, 잠재 공간, 사후 필터링, 사용 맥락)를 체계적으로 분석해 평가 방법론 정립
Ethics and Society Newsletter #4: Bias in Text-to-Image Models
AI 요약
Context
Text-to-Image 생성 모델이 급증하면서 LAION-5B, MS-COCO 등 공개 데이터셋에 내재된 편향이 생성 결과물에 직접 반영되는 문제가 발생했다. CLIP 모델의 인코더 편향으로 인해 지정되지 않은 성별과 인종이 기본값으로 백인 남성으로 해석되는 등 다중모달 시스템의 편향 검출 방법이 부재했다. 안전 필터는 성적 콘텐츠만 감지하고 폭력·불안정한 콘텐츠는 놓치는 문제도 발견되었다.
Technical Solution
- 학습 데이터 편향 분석: LAION-5B, MS-COCO, VQA v2.0 등 대규모 멀티모달 데이터셋의 문화·직업 고정관념 매핑 및 다양성 부족 지점 시각화(CEO/매니저 이미지 생성 비교 사례)
- 데이터 필터링 편향 측정: Dall-E 2 사례처럼 필터링 프로세스가 오히려 성별 편향을 증폭시키는 메커니즘 검증
- 추론 단계 편향 추적: CLIP 모델이 나이·성별·인종 레이블을 처리하는 방식 분석 및 언더스펙 프롬프트 해석 편향 정량화
- 잠재 공간 구조 탐사: 성별 축을 따라 이미지 생성을 유도하는 방식으로 대표성 개선 가능성 검증
- 사후 필터링 평가: Stable Diffusion 안전 필터에 대한 레드팀 테스트로 성적·폭력·불안정 콘텐츠 감지율 측정
- 사용 맥락별 위험도 분류: 그래픽 디자인(사용자 개입 가능)과 경찰 스케치 생성(고위험 적용) 구분
Key Takeaway
Text-to-Image 편향은 단일 기술 해결책으로 대응 불가능하며, 학습 데이터부터 배포 맥락까지 6단계 전주기에서 다중 평가 방법론을 병렬로 적용해야 한다. 특히 동일 프롬프트에서 ERNIE ViLG와 Stable Diffusion v2.1의 결과 편차처럼 모델 간 문화적 가치 표현 차이를 정량화하는 것이 편향 감지의 출발점이다.
실천 포인트
Text-to-Image 모델을 제품에 통합하는 엔지니어는 배포 전에 ①학습 데이터셋의 문화·성별·직업군 분포를 LAION-5B 수준에서 감시하고, ②추론 시 동일 프롬프트에서 여러 모델의 결과를 비교 분석하고, ③안전 필터가 성적 콘텐츠만 아닌 폭력·편견 콘텐츠도 감지하는지 검증하고, ④경찰 수사나 신원 확인 같은 고위험 맥락 사용은 제한해야 한다.