ํ๋ฆฌํ ์ธ์ด(ํ๊ฐ๋ก๊ทธ์ด, ์ธ๋ถ์๋ ธ์ด) ๋๊ท๋ชจ ์ธ์ด๋ชจ๋ธ(LLM) ์ฑ๋ฅ ํ๊ฐ๋ฅผ ์ํด FilBench ๋ฒค์น๋งํฌ ์ค์ํธ๋ฅผ ๊ฐ๋ฐํด 20๊ฐ ์ด์์ ์ต์ LLM์ 4๊ฐ ๋ฒ์ฃผ 12๊ฐ ํ์คํฌ๋ก ์ฒด๊ณ์ ํ๊ฐ
๐ต๐ญ FilBench - Can LLMs Understand and Generate Filipino?
AI ์์ฝ
Context
ํ๋ฆฌํ์ ์ ์ธ๊ณ ChatGPT ์ฌ์ฉ์์ 4์๊ถ ๊ตญ๊ฐ์์๋ ๋ถ๊ตฌํ๊ณ ํ๊ฐ๋ก๊ทธ์ด, ์ธ๋ถ์๋ ธ์ด ๋ฑ ํ๋ฆฌํ ์ธ์ด์ ๋ํ LLM ์ฑ๋ฅ ํ๊ฐ๊ฐ ์ฒด๊ณ์ ์ผ๋ก ์ด๋ฃจ์ด์ง์ง ์์๋ค. ๊ธฐ์กด ํ๊ฐ๋ ChatGPT ์คํฌ๋ฆฐ์ท ๊ฐ์ ์ผํ์ ์ฆ๊ฑฐ์๋ง ์์กดํ์ผ๋ฉฐ, ํ๋ฆฌํ ์ธ์ด์ ๋ํ LLM ๋ฅ๋ ฅ์ ๋ช ํํ ์ดํด๊ฐ ๋ถ์กฑํ๋ค.
Technical Solution
- 4๊ฐ ํ๊ฐ ๋ฒ์ฃผ + 12๊ฐ ํ์คํฌ๋ก ๊ตฌ์ฑ๋ FilBench ๋ฒค์น๋งํฌ ์ค์ํธ ์ค๊ณ: Cultural Knowledge(์ง์ญยท๋ฌธํ ํน์ ์ ๋ณด), Classical NLP(๊ณ ์ ๋ช ์ฌ ์ธ์, ๊ฐ์ ๋ถ์, ํ ์คํธ ๋ถ๋ฅ), Reading Comprehension(๊ฐ๋ ์ฑ, ์ดํด๋ ฅ, ์์ฐ์ธ์ด ์ถ๋ก ), Generation(๋ฒ์ญ ๋ฅ๋ ฅ)
- 2006~2024๋ ํ๋ฆฌํ ์ธ์ด NLP ์ฐ๊ตฌ ์ญ์ฌ ์กฐ์ฌ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ๊ฐ ์นดํ ๊ณ ๋ฆฌ ์ ์ ๋ฐ ๋๋ถ๋ถ์ ์นดํ ๊ณ ๋ฆฌ๋ฅผ ๋ฒ์ญ๋์ง ์์ ์๋ฌธ ์ฝํ ์ธ ๋ก๋ง ๊ตฌ์ฑ
- Hugging Face Lighteval ํ๋ ์์ํฌ ์์ FilBench ๊ตฌ์ถํ๊ณ , ์์ด-ํ๊ฐ๋ก๊ทธ์ด(๋๋ ์ธ๋ถ์๋ ธ์ด) ๋ฒ์ญ ์ ์ฌ์ ์ ์(์: oo=yes, hindi=no, totoo=true)
- ๊ฐ ๋ฒ์ฃผ์ ์์ ์์ ๋ฐ๋ฅธ ๊ฐ์ค ํ๊ท ์ผ๋ก ๋จ์ผ ๋ํ ์ ์(FilBench Score) ๊ณ์ฐ
- 20๊ฐ ์ด์์ ์ต์ LLM์ FilBench๋ก ํ๊ฐํ๊ณ ๊ฒฐ๊ณผ๋ฅผ Hugging Face ๋ฆฌ๋๋ณด๋๋ก ๊ณต๊ฐ
Impact
- SEA-specific LLM(SEA-LION, SeaLLM)์ด ๋์ผ ํ๋ผ๋ฏธํฐ ํฌ๊ธฐ์ ๋ค๋ฅธ ๋ชจ๋ธ ๋๋น ์ต๊ณ FilBench ์ ์ ๋ฌ์ฑํ๋ฉฐ ๋งค๊ฐ๋ณ์ ํจ์จ์ฑ ์ ์ฆ
- SEA-specific ํ์ต ๋ฐ์ดํฐ๋ก ์ง์์ ํ์ธํ๋ ์ 2~3% ์ฑ๋ฅ ํฅ์ ํ์ธ
- ์คํ ๊ฐ์ค์น LLM์ด ์์ฉ ๋ชจ๋ธ(GPT-4o)๋ณด๋ค ๋น์ฉ ํจ์จ์ ์ด๋ฉด์๋ ํ๋ฆฌํ ์ธ์ด ํ์คํฌ ์ฑ๋ฅ์์ ๊ฒฝ์๋ ฅ ์์์ ๊ฒ์ฆ
Key Takeaway
๋ค๊ตญ์ด LLM ํ๊ฐ๋ ๋จ์ํ ๋ฒค์น๋งํฌ ์ ์๊ฐ ์๋๋ผ ํน์ ์ธ์ดยท๋ฌธํ ์ปค๋ฎค๋ํฐ์ ์ค์ NLP ์ฐ๊ตฌ ์ฐ์ ์์ ๋ฐ ์ฌ์ฉ ํจํด์ ๊ธฐ๋ฐ์ผ๋ก ์ค๊ณ๋์ด์ผ ํ๋ฉฐ, ๊ณต๊ฐ ํ๊ฐ ํ๋ ์์ํฌ๋ฅผ ํตํด ์ง์ญ ์ธ์ด ๊ฐ์ ์ฐ๊ตฌ์ ํฌ๋ช ์ฑ๊ณผ ์ ๊ทผ์ฑ์ ๋์ผ ์ ์๋ค.
์ค์ฒ ํฌ์ธํธ
ํ๋ฆฌํ ๋๋ ๋๋จ์์์ ์ธ์ด LLM ์๋น์ค๋ฅผ ๊ฐ๋ฐํ๋ ํ์ด FilBench๋ฅผ ํ์ฉํ๋ฉด ์์ฌ ๋ชจ๋ธ์ ํ๊ฐ๋ก๊ทธ์ดยท์ธ๋ถ์๋ ธ์ด ์ดํด๋ ๋ฐ ๋ฒ์ญ ๋ฅ๋ ฅ์ Cultural Knowledge, Classical NLP, Reading Comprehension, Generation 4๊ฐ ๋ฒ์ฃผ๋ก ์ฒด๊ณ์ ์ผ๋ก ๋ฒค์น๋งํนํ ์ ์์ผ๋ฉฐ, SEA-specific ํ์ต ๋ฐ์ดํฐ๋ฅผ ์ถ๊ฐ ์์งํด ํ์ธํ๋ํ๋ฉด 2~3% ์ฑ๋ฅ ํฅ์์ ๊ธฐ๋ํ ์ ์๋ค.