ํ”ผ๋“œ๋กœ ๋Œ์•„๊ฐ€๊ธฐ
๐Ÿ“š 3LM: A Benchmark for Arabic LLMs in STEM and Code
Hugging Face BlogHugging Face Blog
AI/ML

์—ฐ๊ตฌํŒ€์ด ์•„๋ž์–ด STEM ๋ฐ ์ฝ”๋“œ ์ƒ์„ฑ ํ‰๊ฐ€๋ฅผ ์œ„ํ•ด 3๊ฐœ ๋ฐ์ดํ„ฐ์…‹(Native STEM 865๊ฐœ, Synthetic STEM 1,744๊ฐœ, ์ฝ”๋“œ ๋ฒค์น˜๋งˆํฌ)์œผ๋กœ ๊ตฌ์„ฑ๋œ 3LM ๋ฒค์น˜๋งˆํฌ ๋„์ž…

๐Ÿ“š 3LM: A Benchmark for Arabic LLMs in STEM and Code

2025๋…„ 8์›” 1์ผ8๋ถ„intermediate

Context

์•„๋ž์–ด ๋Œ€๊ทœ๋ชจ์–ธ์–ด๋ชจ๋ธ(LLM)์˜ ํ‰๊ฐ€๊ฐ€ ์š”์•ฝ, ๊ฐ์ • ๋ถ„์„ ๋“ฑ ์ผ๋ฐ˜ ๋ชฉ์  ์ž‘์—…์— ํŽธ์ค‘๋˜์–ด ์žˆ์œผ๋ฉฐ, STEM ๊ณผ๋ชฉ๊ณผ ์ฝ”๋“œ ์ƒ์„ฑ ๊ฐ™์€ ๊ธฐ์ˆ  ์˜์—ญ์—์„œ์˜ ์„ฑ๋Šฅ ์ธก์ • ๋„๊ตฌ๊ฐ€ ๋ถ€์žฌํ–ˆ๋‹ค. ํŠนํžˆ ๊ตฌ์กฐ์  ์ถ”๋ก ๊ณผ ํ˜•์‹๋…ผ๋ฆฌ ๊ฐ™์€ ์˜์—ญ์€ ์•„๋ž์–ด ์ž์—ฐ์–ธ์–ด์ฒ˜๋ฆฌ์—์„œ ์ „ํ†ต์ ์œผ๋กœ ์†Œ์™ธ๋˜์–ด ์žˆ์—ˆ๋‹ค.

Technical Solution

  • Native STEM ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์„ฑ: 8~12ํ•™๋…„ ์•„๋ž์–ด ๊ต๊ณผ์„œ, ์›Œํฌ์‹œํŠธ, ์‹œํ—˜ ์€ํ–‰์—์„œ OCR(Pix2Tex๋ฅผ ํ†ตํ•œ LaTeX ์ˆ˜ํ•™ ์ˆ˜์‹ ํŒŒ์‹ฑ ํฌํ•จ) + LLM ๊ธฐ๋ฐ˜ ์งˆ์˜์‘๋‹ต ์ถ”์ถœ + ์ˆ˜๋™ ๊ฒ€ํ† ๋ฅผ ๊ฑฐ์นœ 865๊ฐœ์˜ ๊ฐ๊ด€์‹ ๋ฌธ์ œ ์ˆ˜์ง‘
  • Synthetic STEM ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์„ฑ: YourBench ํŒŒ์ดํ”„๋ผ์ธ์„ ์‚ฌ์šฉํ•ด ์•„๋ž์–ด ๊ต๊ณผ์„œ ํ…์ŠคํŠธ๋ฅผ ์ฒญํ‚นยท์š”์•ฝํ•œ ํ›„ LLM ๊ธฐ๋ฐ˜ ์งˆ๋ฌธ ์ƒ์„ฑ ์‹œ์Šคํ…œ์œผ๋กœ 1,744๊ฐœ์˜ ์ค‘์ƒ ๋‚œ๋„ ๋ฌธ์ œ ์ƒ์„ฑ ๋ฐ ๋ช…ํ™•์„ฑยท๊ตฌ์กฐยท๋‚ด์šฉ ์œ ํšจ์„ฑ ๊ธฐ๋ฐ˜ ํ•„ํ„ฐ๋ง
  • ์ฝ”๋“œ ๋ฒค์น˜๋งˆํฌ ์ ์‘: HumanEval+๊ณผ MBPP+ ๋ฒค์น˜๋งˆํฌ๋ฅผ ์•„๋ž์–ด๋กœ ๋ฒˆ์—ญ ๋ฐ ์ ์‘ํ•˜๋˜, GPT-4o๋ฅผ ์‚ฌ์šฉํ•œ ํ”„๋กฌํ”„ํŠธ ๋ฒˆ์—ญ ํ›„ ์—ญ๋ฒˆ์—ญ ํŒŒ์ดํ”„๋ผ์ธ(ROUGE-L F1 < 0.8 ๊ธฐ์ค€ ๋‚ฎ์€ ํ’ˆ์งˆ ์ œ๊ฑฐ)์œผ๋กœ ๊ฒ€์ฆํ•˜๊ณ  ์ฝ”๋“œ ๋ฐ ํ…Œ์ŠคํŠธ ์Šค์œ„ํŠธ๋Š” ๋ณด์กด
  • ํ‰๊ฐ€ ๋„๊ตฌ ํ†ตํ•ฉ: lighteval์œผ๋กœ STEM ๊ฐ๊ด€์‹ ๋ฐ ๊ฐœ๋ฐฉํ˜• ํ‰๊ฐ€ ์ˆ˜ํ–‰, EvalPlus ํ”„๋ ˆ์ž„์›Œํฌ๋กœ ์ฝ”๋“œ ์ƒ์„ฑ์˜ pass@1 ๋ฐ pass@1+ ๋ฉ”ํŠธ๋ฆญ ํ‰๊ฐ€
  • ๋ชจ๋ธ ํ‰๊ฐ€ ๋ฒ”์œ„: 40๊ฐœ ์ด์ƒ์˜ ์•„๋ž์–ด ์ „์šฉ, ๋‹ค๊ตญ์–ด, ์ผ๋ฐ˜ ๋ชฉ์  ๋ฒ ์ด์Šค ๋ฐ ์ธ์ŠคํŠธ๋Ÿญ์…˜ ํŠœ๋‹ ๋ชจ๋ธ ํ‰๊ฐ€

Impact

  • MCQ ์„ค์ •์—์„œ Qwen2.5-72B-Instruct๊ฐ€ Native STEM 71.8%, Synthetic STEM 67.0% ์ •ํ™•๋„ ๋‹ฌ์„ฑ
  • ์™„์„ฑ ์ž‘์—…์—์„œ Gemma-3-27B๊ฐ€ STEM ๋‹ต๋ณ€ 43.2% ์ •ํ™•๋„ ๋‹ฌ์„ฑ
  • ์ฝ”๋“œ ์ƒ์„ฑ์—์„œ GPT-4o๊ฐ€ HumanEval-ar 83.5% pass@1+, MBPP-ar 63.6% pass@1+ ์„ฑ๋Šฅ ๋‹ฌ์„ฑ
  • ์•„๋ž์–ด์™€ ์˜์–ด pass@1 ์ ์ˆ˜ ๊ฐ„ ์ƒ๊ด€๊ด€๊ณ„ ์•ฝ 0.97 ์ธก์ •
  • ์ธ์ŠคํŠธ๋Ÿญ์…˜ ํŠœ๋‹ ๋ชจ๋ธ์ด ๋ฒ ์ด์Šค ๋ชจ๋ธ ๋Œ€๋น„ ๋ถ„์‚ฐ๊ธฐ ๊ต๋ž€ ์ƒํ™ฉ์—์„œ ํ˜„์ €ํžˆ ๋†’์€ ์•ˆ์ •์„ฑ ํ™•์ธ

Key Takeaway

์•„๋ž์–ด LLM ํ‰๊ฐ€์˜ ์—ญ์‚ฌ์  ๊ณต๋ฐฑ์„ ์ฑ„์šฐ๊ธฐ ์œ„ํ•ด ์‹ค์ œ ๊ต์œก ์ž๋ฃŒ + ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ + ๋‹ค์–ธ์–ด ์ฝ”๋“œ ๋ฒค์น˜๋งˆํฌ๋ฅผ ์กฐํ•ฉํ•จ์œผ๋กœ์จ, ๋‹จ์ˆœ ์–ธ์–ด ์ดํ•ด๋ฅผ ๋„˜์–ด ์ˆ˜ํ•™์  ์ถ”๋ก ๊ณผ ํ”„๋กœ๊ทธ๋ž˜๋ฐ ๋Šฅ๋ ฅ์„ ์ข…ํ•ฉ ํ‰๊ฐ€ํ•  ์ˆ˜ ์žˆ๋Š” ๊ธฐ์ดˆ๋ฅผ ๋งˆ๋ จํ–ˆ๋‹ค. ์ด๋Š” ๊ธฐ์ˆ  ์˜์—ญ์—์„œ ์ €์ž์› ์–ธ์–ด์˜ ๋ชจ๋ธ ๊ฐœ๋ฐœ ๋ฐ ๊ฒ€์ฆ์„ ์œ„ํ•œ ์„ค๊ณ„ ํŒจํ„ด์„ ์ œ์‹œํ•œ๋‹ค.


์•„๋ž์–ด ๊ธฐ๋ฐ˜ LLM ๊ฐœ๋ฐœํŒ€์—์„œ ๋ชจ๋ธ์˜ ๊ธฐ์ˆ  ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ์„ ๊ฒ€์ฆํ•  ๋•Œ, 3LM์˜ Native STEM(์‹ค์ œ ๊ต์œก ์ž๋ฃŒ ๊ธฐ๋ฐ˜) + Synthetic STEM(๊ณ ๋‚œ๋„ ์ถ”๋ก ) ์กฐํ•ฉ์„ ํ™œ์šฉํ•˜๋ฉด ์ผ๋ฐ˜ ๋ฒค์น˜๋งˆํฌ ๋Œ€๋น„ ๊ตฌ์กฐ์  ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ์ •ํ™•ํžˆ ์ธก์ •ํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์ฝ”๋“œ ๋ฒค์น˜๋งˆํฌ๋ฅผ ํ•จ๊ป˜ ํ‰๊ฐ€ํ•˜๋ฉด ํ”„๋กœ๊ทธ๋ž˜๋ฐ ์ž‘์—…์˜ ์‹ค์ „ ์„ฑ๋Šฅ๊นŒ์ง€ ์ข…ํ•ฉ ํŒŒ์•… ๊ฐ€๋Šฅํ•˜๋‹ค.

์›๋ฌธ ์ฝ๊ธฐ