Hugging Face Evaluate ๋ผ์ด๋ธ๋ฌ๋ฆฌ์ ํธํฅ ํ๊ฐ ๋ฉํธ๋ฆญ(Toxicity, Polarity, Hurtfulness)์ ์ถ๊ฐํ์ฌ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ์ ์ฑ๋ณยท์ข ๊ต ๊ธฐ๋ฐ ์ฐจ๋ณ์ ์ฝํ ์ธ ์์ฑ ํธํฅ์ ์ ๋ํ
Evaluating Language Model Bias with ๐ค Evaluate
AI ์์ฝ
Context
GPT-2, BLOOM ๋ฑ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ์ด ํน์ ์ข ๊ต์ ์ฑ๋ณ์ ๋ํด ํธํฅ๋ ์ฝํ ์ธ ๋ฅผ ์์ฑํ๋ฉฐ, ์ด๋ ์์ ์ง๋จ์ ๋ํ ํด์ ์ ์กฐ์ฅํ ์ ์๋ค. ๊ธฐ์กด์๋ ์ด๋ฌํ ํธํฅ์ ์ฒด๊ณ์ ์ผ๋ก ์ธก์ ํ ์ ์๋ ํตํฉ ํ๊ฐ ํ๋ ์์ํฌ๊ฐ ๋ถ์กฑํ๋ค.
Technical Solution
- Toxicity ๋ฉํธ๋ฆญ ๋์ : WinoBias ๋ฐ์ดํฐ์ ์ ํ๋กฌํํธ๋ก ๋ชจ๋ธ ์์ฑ๋ฌผ์ ํ๊ฐํ๊ณ , R4 Target ํ์ค ๊ฐ์ง ๋ชจ๋ธ์ ๋ถ๋ฅ๊ธฐ๋ก ์ฌ์ฉํ์ฌ ๋ ์ฑ ์ ์ ๊ณ์ฐ
- Polarity ๋ฉํธ๋ฆญ ์ถ๊ฐ: BOLD ๋ฐ์ดํฐ์ ์ ํ์ฉํด ์ฑ๋ณ, ์ธ์ข , ์ง์ ๋ฑ ์ธ๊ตฌ ํต๊ณํ์ ๊ทธ๋ฃน๋ณ ์ธ์ด ๊ทน์ฑ ์ฐจ์ด ํ๊ฐ
- Hurtfulness ๋ฉํธ๋ฆญ ๊ตฌํ: HONEST ๋ฐ์ดํฐ์ ๊ธฐ๋ฐ์ผ๋ก ๋ชจ๋ธ์ด ํน์ ์ ์ฒด์ฑ ๊ทธ๋ฃน์ ๋ํด ์์ฑํ๋ ํด๋ก์ด ์ฝํ ์ธ ์ธก์
- ๐ค Evaluate ๋ผ์ด๋ธ๋ฌ๋ฆฌ์ ๋ฉํธ๋ฆญ ํตํฉ: ์ฌ์ฉ์๊ฐ
evaluate.load("toxicity")๋ก ๋ฉํธ๋ฆญ์ ๋ก๋ํ๊ณcompute()๋ฉ์๋๋ก ๊ฒฐ๊ณผ ์ง๊ณ ๊ฐ๋ฅํ๊ฒ ๊ตฌํ - ํ๋กฌํํธ ๊ธฐ๋ฐ ํ๊ฐ ์ํฌํ๋ก์ฐ ์ ๊ณต: ๐ค Datasets์์ ์ฌ์ ์ ์๋ ํ๋กฌํํธ ์ธํธ๋ฅผ ๋ก๋ํ์ฌ ๋ชจ๋ธ์ ์ ๋ ฅ ํ ๊ฒฐ๊ณผ ํ๊ฐํ๋ 2๋จ๊ณ ํ๋ก์ธ์ค
Impact
๋จ์ฑ ๋๋ช ์ฌ(he)๋ฅผ ์ฌ์ฉํ ํ๋กฌํํธ์์ ๋ ์ฑ ๋น์จ 0.0 ๋๋น ์ฌ์ฑ ๋๋ช ์ฌ(she)๋ฅผ ์ฌ์ฉํ ๋์ผ ํ๋กฌํํธ์์ 0.333์ ๋ ์ฑ ๋น์จ ๋ฌ์ฑ (3๋ฐฐ ์ฐจ์ด). ํน์ ์ฌ์ฑ ์์ฑ์์ ๊ฐ๋ณ ๋ ์ฑ ์ ์ 0.85 ๊ธฐ๋ก (๋จ์ฑ ๋ฒ์ 0.0002 ๋๋น). ๋ ์ฆ๋น์ธ ๊ทธ๋ฃน์ ๋ํด ๊ฒ์ด ๊ทธ๋ฃน๋ณด๋ค ๋ ๋ง์ ํด๋ก์ด ์์ฑ ์์ฑ ํจํด ํ์ธ.
Key Takeaway
ํ๋กฌํํธ ๊ธฐ๋ฐ ํธํฅ ํ๊ฐ๋ ๊ฐ๋จํ ๋๋ช ์ฌ ๋ณ๊ฒฝ๋ง์ผ๋ก๋ ๋ชจ๋ธ์ ์ฐจ๋ณ์ ์์ฑ ํจํด์ ๋๋ฌ๋ผ ์ ์์ผ๋ฉฐ, ๋จ์ผ ๋ฉํธ๋ฆญ์ด ์๋ Toxicity, Polarity, Hurtfulness ๋ฉํธ๋ฆญ์ ์กฐํฉ ์ฌ์ฉํด์ผ ๋ชจ๋ธ ํธํฅ์ ๋ค๊ฐ์ ์ดํด๊ฐ ๊ฐ๋ฅํ๋ค.
์ค์ฒ ํฌ์ธํธ
์์ ์ ์ธ์ด ๋ชจ๋ธ์ ๋ฐฐํฌํ๊ธฐ ์ ์ ๐ค Evaluate์ toxicity, polarity, hurtfulness ๋ฉํธ๋ฆญ์ ํ์ฉํ์ฌ ์ธ๊ตฌ ํต๊ณํ์ ๊ทธ๋ฃน๋ณ ์ฐจ๋ณ์ ์์ฑ ๋น์จ์ ์ธก์ ํ๋ฉด, ํน์ ์ฑ๋ณยท์ข ๊ตยท์ธ์ข ์ ๋ํ ๋ชจ๋ธ์ ํธํฅ์ ์ ๋์ ์ผ๋ก ์๋ณํ๊ณ ์ํ ์ ๋ต์ ์๋ฆฝํ ์ ์๋ค.