ํ”ผ๋“œ๋กœ ๋Œ์•„๊ฐ€๊ธฐ
๐Ÿ‡ต๐Ÿ‡ญ FilBench - Can LLMs Understand and Generate Filipino?
Hugging Face BlogHugging Face Blog
AI/ML

ํ•„๋ฆฌํ•€ ์–ธ์–ด(ํƒ€๊ฐˆ๋กœ๊ทธ์–ด, ์„ธ๋ถ€์•„๋…ธ์–ด) ๋Œ€๊ทœ๋ชจ ์–ธ์–ด๋ชจ๋ธ(LLM) ์„ฑ๋Šฅ ํ‰๊ฐ€๋ฅผ ์œ„ํ•ด FilBench ๋ฒค์น˜๋งˆํฌ ์Šค์œ„ํŠธ๋ฅผ ๊ฐœ๋ฐœํ•ด 20๊ฐœ ์ด์ƒ์˜ ์ตœ์‹  LLM์„ 4๊ฐœ ๋ฒ”์ฃผ 12๊ฐœ ํƒœ์Šคํฌ๋กœ ์ฒด๊ณ„์  ํ‰๊ฐ€

๐Ÿ‡ต๐Ÿ‡ญ FilBench - Can LLMs Understand and Generate Filipino?

2025๋…„ 8์›” 12์ผ9๋ถ„intermediate

Context

ํ•„๋ฆฌํ•€์€ ์ „ ์„ธ๊ณ„ ChatGPT ์‚ฌ์šฉ์ž์˜ 4์œ„๊ถŒ ๊ตญ๊ฐ€์ž„์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ  ํƒ€๊ฐˆ๋กœ๊ทธ์–ด, ์„ธ๋ถ€์•„๋…ธ์–ด ๋“ฑ ํ•„๋ฆฌํ•€ ์–ธ์–ด์— ๋Œ€ํ•œ LLM ์„ฑ๋Šฅ ํ‰๊ฐ€๊ฐ€ ์ฒด๊ณ„์ ์œผ๋กœ ์ด๋ฃจ์–ด์ง€์ง€ ์•Š์•˜๋‹ค. ๊ธฐ์กด ํ‰๊ฐ€๋Š” ChatGPT ์Šคํฌ๋ฆฐ์ƒท ๊ฐ™์€ ์ผํ™”์  ์ฆ๊ฑฐ์—๋งŒ ์˜์กดํ–ˆ์œผ๋ฉฐ, ํ•„๋ฆฌํ•€ ์–ธ์–ด์— ๋Œ€ํ•œ LLM ๋Šฅ๋ ฅ์˜ ๋ช…ํ™•ํ•œ ์ดํ•ด๊ฐ€ ๋ถ€์กฑํ–ˆ๋‹ค.

Technical Solution

  • 4๊ฐœ ํ‰๊ฐ€ ๋ฒ”์ฃผ + 12๊ฐœ ํƒœ์Šคํฌ๋กœ ๊ตฌ์„ฑ๋œ FilBench ๋ฒค์น˜๋งˆํฌ ์Šค์œ„ํŠธ ์„ค๊ณ„: Cultural Knowledge(์ง€์—ญยท๋ฌธํ™” ํŠน์ • ์ •๋ณด), Classical NLP(๊ณ ์œ ๋ช…์‚ฌ ์ธ์‹, ๊ฐ์ • ๋ถ„์„, ํ…์ŠคํŠธ ๋ถ„๋ฅ˜), Reading Comprehension(๊ฐ€๋…์„ฑ, ์ดํ•ด๋ ฅ, ์ž์—ฐ์–ธ์–ด ์ถ”๋ก ), Generation(๋ฒˆ์—ญ ๋Šฅ๋ ฅ)
  • 2006~2024๋…„ ํ•„๋ฆฌํ•€ ์–ธ์–ด NLP ์—ฐ๊ตฌ ์—ญ์‚ฌ ์กฐ์‚ฌ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํ‰๊ฐ€ ์นดํ…Œ๊ณ ๋ฆฌ ์„ ์ • ๋ฐ ๋Œ€๋ถ€๋ถ„์˜ ์นดํ…Œ๊ณ ๋ฆฌ๋ฅผ ๋ฒˆ์—ญ๋˜์ง€ ์•Š์€ ์›๋ฌธ ์ฝ˜ํ…์ธ ๋กœ๋งŒ ๊ตฌ์„ฑ
  • Hugging Face Lighteval ํ”„๋ ˆ์ž„์›Œํฌ ์œ„์— FilBench ๊ตฌ์ถ•ํ•˜๊ณ , ์˜์–ด-ํƒ€๊ฐˆ๋กœ๊ทธ์–ด(๋˜๋Š” ์„ธ๋ถ€์•„๋…ธ์–ด) ๋ฒˆ์—ญ ์Œ ์‚ฌ์ „ ์ •์˜(์˜ˆ: oo=yes, hindi=no, totoo=true)
  • ๊ฐ ๋ฒ”์ฃผ์˜ ์˜ˆ์ œ ์ˆ˜์— ๋”ฐ๋ฅธ ๊ฐ€์ค‘ ํ‰๊ท ์œผ๋กœ ๋‹จ์ผ ๋Œ€ํ‘œ ์ ์ˆ˜(FilBench Score) ๊ณ„์‚ฐ
  • 20๊ฐœ ์ด์ƒ์˜ ์ตœ์‹  LLM์„ FilBench๋กœ ํ‰๊ฐ€ํ•˜๊ณ  ๊ฒฐ๊ณผ๋ฅผ Hugging Face ๋ฆฌ๋”๋ณด๋“œ๋กœ ๊ณต๊ฐœ

Impact

  • SEA-specific LLM(SEA-LION, SeaLLM)์ด ๋™์ผ ํŒŒ๋ผ๋ฏธํ„ฐ ํฌ๊ธฐ์˜ ๋‹ค๋ฅธ ๋ชจ๋ธ ๋Œ€๋น„ ์ตœ๊ณ  FilBench ์ ์ˆ˜ ๋‹ฌ์„ฑํ•˜๋ฉฐ ๋งค๊ฐœ๋ณ€์ˆ˜ ํšจ์œจ์„ฑ ์ž…์ฆ
  • SEA-specific ํ•™์Šต ๋ฐ์ดํ„ฐ๋กœ ์ง€์†์  ํŒŒ์ธํŠœ๋‹ ์‹œ 2~3% ์„ฑ๋Šฅ ํ–ฅ์ƒ ํ™•์ธ
  • ์˜คํ”ˆ ๊ฐ€์ค‘์น˜ LLM์ด ์ƒ์šฉ ๋ชจ๋ธ(GPT-4o)๋ณด๋‹ค ๋น„์šฉ ํšจ์œจ์ ์ด๋ฉด์„œ๋„ ํ•„๋ฆฌํ•€ ์–ธ์–ด ํƒœ์Šคํฌ ์„ฑ๋Šฅ์—์„œ ๊ฒฝ์Ÿ๋ ฅ ์žˆ์Œ์„ ๊ฒ€์ฆ

Key Takeaway

๋‹ค๊ตญ์–ด LLM ํ‰๊ฐ€๋Š” ๋‹จ์ˆœํ•œ ๋ฒค์น˜๋งˆํฌ ์ ์ˆ˜๊ฐ€ ์•„๋‹ˆ๋ผ ํŠน์ • ์–ธ์–ดยท๋ฌธํ™” ์ปค๋ฎค๋‹ˆํ‹ฐ์˜ ์‹ค์ œ NLP ์—ฐ๊ตฌ ์šฐ์„ ์ˆœ์œ„ ๋ฐ ์‚ฌ์šฉ ํŒจํ„ด์„ ๊ธฐ๋ฐ˜์œผ๋กœ ์„ค๊ณ„๋˜์–ด์•ผ ํ•˜๋ฉฐ, ๊ณต๊ฐœ ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ํ†ตํ•ด ์ง€์—ญ ์–ธ์–ด ๊ฐœ์„  ์—ฐ๊ตฌ์˜ ํˆฌ๋ช…์„ฑ๊ณผ ์ ‘๊ทผ์„ฑ์„ ๋†’์ผ ์ˆ˜ ์žˆ๋‹ค.


ํ•„๋ฆฌํ•€ ๋˜๋Š” ๋™๋‚จ์•„์‹œ์•„ ์–ธ์–ด LLM ์„œ๋น„์Šค๋ฅผ ๊ฐœ๋ฐœํ•˜๋Š” ํŒ€์ด FilBench๋ฅผ ํ™œ์šฉํ•˜๋ฉด ์ž์‚ฌ ๋ชจ๋ธ์˜ ํƒ€๊ฐˆ๋กœ๊ทธ์–ดยท์„ธ๋ถ€์•„๋…ธ์–ด ์ดํ•ด๋„ ๋ฐ ๋ฒˆ์—ญ ๋Šฅ๋ ฅ์„ Cultural Knowledge, Classical NLP, Reading Comprehension, Generation 4๊ฐœ ๋ฒ”์ฃผ๋กœ ์ฒด๊ณ„์ ์œผ๋กœ ๋ฒค์น˜๋งˆํ‚นํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, SEA-specific ํ•™์Šต ๋ฐ์ดํ„ฐ๋ฅผ ์ถ”๊ฐ€ ์ˆ˜์ง‘ํ•ด ํŒŒ์ธํŠœ๋‹ํ•˜๋ฉด 2~3% ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๊ธฐ๋Œ€ํ•  ์ˆ˜ ์žˆ๋‹ค.

์›๋ฌธ ์ฝ๊ธฐ