ํ”ผ๋“œ๋กœ ๋Œ์•„๊ฐ€๊ธฐ
Evaluating Language Model Bias with ๐Ÿค— Evaluate
Hugging Face BlogHugging Face Blog
AI/ML

Hugging Face Evaluate ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ์— ํŽธํ–ฅ ํ‰๊ฐ€ ๋ฉ”ํŠธ๋ฆญ(Toxicity, Polarity, Hurtfulness)์„ ์ถ”๊ฐ€ํ•˜์—ฌ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ์˜ ์„ฑ๋ณ„ยท์ข…๊ต ๊ธฐ๋ฐ˜ ์ฐจ๋ณ„์  ์ฝ˜ํ…์ธ  ์ƒ์„ฑ ํŽธํ–ฅ์„ ์ •๋Ÿ‰ํ™”

Evaluating Language Model Bias with ๐Ÿค— Evaluate

2022๋…„ 10์›” 24์ผ12๋ถ„intermediate

Context

GPT-2, BLOOM ๋“ฑ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ์ด ํŠน์ • ์ข…๊ต์™€ ์„ฑ๋ณ„์— ๋Œ€ํ•ด ํŽธํ–ฅ๋œ ์ฝ˜ํ…์ธ ๋ฅผ ์ƒ์„ฑํ•˜๋ฉฐ, ์ด๋Š” ์†Œ์ˆ˜ ์ง‘๋‹จ์— ๋Œ€ํ•œ ํ•ด์•…์„ ์กฐ์žฅํ•  ์ˆ˜ ์žˆ๋‹ค. ๊ธฐ์กด์—๋Š” ์ด๋Ÿฌํ•œ ํŽธํ–ฅ์„ ์ฒด๊ณ„์ ์œผ๋กœ ์ธก์ •ํ•  ์ˆ˜ ์žˆ๋Š” ํ†ตํ•ฉ ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ๊ฐ€ ๋ถ€์กฑํ–ˆ๋‹ค.

Technical Solution

  • Toxicity ๋ฉ”ํŠธ๋ฆญ ๋„์ž…: WinoBias ๋ฐ์ดํ„ฐ์…‹์˜ ํ”„๋กฌํ”„ํŠธ๋กœ ๋ชจ๋ธ ์ƒ์„ฑ๋ฌผ์„ ํ‰๊ฐ€ํ•˜๊ณ , R4 Target ํ˜์˜ค ๊ฐ์ง€ ๋ชจ๋ธ์„ ๋ถ„๋ฅ˜๊ธฐ๋กœ ์‚ฌ์šฉํ•˜์—ฌ ๋…์„ฑ ์ ์ˆ˜ ๊ณ„์‚ฐ
  • Polarity ๋ฉ”ํŠธ๋ฆญ ์ถ”๊ฐ€: BOLD ๋ฐ์ดํ„ฐ์…‹์„ ํ™œ์šฉํ•ด ์„ฑ๋ณ„, ์ธ์ข…, ์ง์—… ๋“ฑ ์ธ๊ตฌ ํ†ต๊ณ„ํ•™์  ๊ทธ๋ฃน๋ณ„ ์–ธ์–ด ๊ทน์„ฑ ์ฐจ์ด ํ‰๊ฐ€
  • Hurtfulness ๋ฉ”ํŠธ๋ฆญ ๊ตฌํ˜„: HONEST ๋ฐ์ดํ„ฐ์…‹ ๊ธฐ๋ฐ˜์œผ๋กœ ๋ชจ๋ธ์ด ํŠน์ • ์ •์ฒด์„ฑ ๊ทธ๋ฃน์— ๋Œ€ํ•ด ์ƒ์„ฑํ•˜๋Š” ํ•ด๋กœ์šด ์ฝ˜ํ…์ธ  ์ธก์ •
  • ๐Ÿค— Evaluate ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ์— ๋ฉ”ํŠธ๋ฆญ ํ†ตํ•ฉ: ์‚ฌ์šฉ์ž๊ฐ€ evaluate.load("toxicity")๋กœ ๋ฉ”ํŠธ๋ฆญ์„ ๋กœ๋“œํ•˜๊ณ  compute() ๋ฉ”์„œ๋“œ๋กœ ๊ฒฐ๊ณผ ์ง‘๊ณ„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ๊ตฌํ˜„
  • ํ”„๋กฌํ”„ํŠธ ๊ธฐ๋ฐ˜ ํ‰๊ฐ€ ์›Œํฌํ”Œ๋กœ์šฐ ์ œ๊ณต: ๐Ÿค— Datasets์—์„œ ์‚ฌ์ „ ์ •์˜๋œ ํ”„๋กฌํ”„ํŠธ ์„ธํŠธ๋ฅผ ๋กœ๋“œํ•˜์—ฌ ๋ชจ๋ธ์— ์ž…๋ ฅ ํ›„ ๊ฒฐ๊ณผ ํ‰๊ฐ€ํ•˜๋Š” 2๋‹จ๊ณ„ ํ”„๋กœ์„ธ์Šค

Impact

๋‚จ์„ฑ ๋Œ€๋ช…์‚ฌ(he)๋ฅผ ์‚ฌ์šฉํ•œ ํ”„๋กฌํ”„ํŠธ์—์„œ ๋…์„ฑ ๋น„์œจ 0.0 ๋Œ€๋น„ ์—ฌ์„ฑ ๋Œ€๋ช…์‚ฌ(she)๋ฅผ ์‚ฌ์šฉํ•œ ๋™์ผ ํ”„๋กฌํ”„ํŠธ์—์„œ 0.333์˜ ๋…์„ฑ ๋น„์œจ ๋‹ฌ์„ฑ (3๋ฐฐ ์ฐจ์ด). ํŠน์ • ์—ฌ์„ฑ ์™„์„ฑ์—์„œ ๊ฐœ๋ณ„ ๋…์„ฑ ์ ์ˆ˜ 0.85 ๊ธฐ๋ก (๋‚จ์„ฑ ๋ฒ„์ „ 0.0002 ๋Œ€๋น„). ๋ ˆ์ฆˆ๋น„์–ธ ๊ทธ๋ฃน์— ๋Œ€ํ•ด ๊ฒŒ์ด ๊ทธ๋ฃน๋ณด๋‹ค ๋” ๋งŽ์€ ํ•ด๋กœ์šด ์™„์„ฑ ์ƒ์„ฑ ํŒจํ„ด ํ™•์ธ.

Key Takeaway

ํ”„๋กฌํ”„ํŠธ ๊ธฐ๋ฐ˜ ํŽธํ–ฅ ํ‰๊ฐ€๋Š” ๊ฐ„๋‹จํ•œ ๋Œ€๋ช…์‚ฌ ๋ณ€๊ฒฝ๋งŒ์œผ๋กœ๋„ ๋ชจ๋ธ์˜ ์ฐจ๋ณ„์  ์ƒ์„ฑ ํŒจํ„ด์„ ๋“œ๋Ÿฌ๋‚ผ ์ˆ˜ ์žˆ์œผ๋ฉฐ, ๋‹จ์ผ ๋ฉ”ํŠธ๋ฆญ์ด ์•„๋‹Œ Toxicity, Polarity, Hurtfulness ๋ฉ”ํŠธ๋ฆญ์„ ์กฐํ•ฉ ์‚ฌ์šฉํ•ด์•ผ ๋ชจ๋ธ ํŽธํ–ฅ์˜ ๋‹ค๊ฐ์  ์ดํ•ด๊ฐ€ ๊ฐ€๋Šฅํ•˜๋‹ค.


์ž์‹ ์˜ ์–ธ์–ด ๋ชจ๋ธ์„ ๋ฐฐํฌํ•˜๊ธฐ ์ „์— ๐Ÿค— Evaluate์˜ toxicity, polarity, hurtfulness ๋ฉ”ํŠธ๋ฆญ์„ ํ™œ์šฉํ•˜์—ฌ ์ธ๊ตฌ ํ†ต๊ณ„ํ•™์  ๊ทธ๋ฃน๋ณ„ ์ฐจ๋ณ„์  ์™„์„ฑ ๋น„์œจ์„ ์ธก์ •ํ•˜๋ฉด, ํŠน์ • ์„ฑ๋ณ„ยท์ข…๊ตยท์ธ์ข…์— ๋Œ€ํ•œ ๋ชจ๋ธ์˜ ํŽธํ–ฅ์„ ์ •๋Ÿ‰์ ์œผ๋กœ ์‹๋ณ„ํ•˜๊ณ  ์™„ํ™” ์ „๋žต์„ ์ˆ˜๋ฆฝํ•  ์ˆ˜ ์žˆ๋‹ค.

์›๋ฌธ ์ฝ๊ธฐ