ํ”ผ๋“œ๋กœ ๋Œ์•„๊ฐ€๊ธฐ
Our Transformers Code Agent beats the GAIA benchmark ๐Ÿ…
Hugging Face BlogHugging Face Blog
AI/ML

Hugging Face์˜ Transformers Agents๊ฐ€ Code Agent ๋ฐฉ์‹ ๋„์ž…์œผ๋กœ GAIA ๋ฒค์น˜๋งˆํฌ์—์„œ ๊ฒ€์ฆ์…‹ 44.2% ๋‹ฌ์„ฑํ•ด ๊ธฐ์กด ์ตœ๊ณ  ์„ฑ๋Šฅ(40%)์„ ์ดˆ๊ณผ

Our Transformers Code Agent beats the GAIA benchmark ๐Ÿ…

2024๋…„ 7์›” 1์ผ10๋ถ„intermediate

Context

LLM ๊ธฐ๋ฐ˜ ์—์ด์ „ํŠธ ์‹œ์Šคํ…œ์€ ๋ณต์žกํ•œ ๋ฉ€ํ‹ฐ์Šคํ… ์ถ”๋ก ๊ณผ ๋„๊ตฌ ์„ ํƒ์ด ํ•„์š”ํ•œ ๋ฌธ์ œ ํ•ด๊ฒฐ์— ์–ด๋ ค์›€์„ ๊ฒช๊ณ  ์žˆ๋‹ค. GAIA ๋ฒค์น˜๋งˆํฌ๋Š” ์ •๋ณด ์ˆ˜์ง‘์˜ ์ˆœ์ฐจ์  ์˜์กด์„ฑ, ์ด๋ฏธ์ง€ ๋ถ„์„, ํ˜•์‹ ์ œ์•ฝ ๋“ฑ ์—ฌ๋Ÿฌ ๋‚œ์ œ๋ฅผ ํฌํ•จํ•ด ์—์ด์ „ํŠธ ์„ฑ๋Šฅ ํ‰๊ฐ€์˜ ํ‘œ์ค€์ด ๋˜๊ณ  ์žˆ๋‹ค(GPT-4-Turbo 7% ๋ฏธ๋งŒ, ๊ธฐ์กด ์ตœ๊ณ  Autogen ๊ธฐ๋ฐ˜ ์†”๋ฃจ์…˜ 40%).

Technical Solution

  • Code Agent ๋„์ž…: JSON/OAI ํ˜•์‹ ๋Œ€์‹  Python ์ฝ”๋“œ๋กœ ์—์ด์ „ํŠธ ์•ก์…˜์„ ํ‘œํ˜„ํ•ด ๋ณต์žกํ•œ ๋‹ค์ค‘ ๋‹จ๊ณ„ ์ž‘์—…์„ 1๋‹จ๊ณ„๋กœ ์ฒ˜๋ฆฌ ๊ฐ€๋Šฅํ•˜๋„๋ก ๋ณ€๊ฒฝ
  • Web browser ๋„๊ตฌ ๊ตฌ์„ฑ: Autogen์˜ Markdown ๊ธฐ๋ฐ˜ ์›น๋ธŒ๋ผ์šฐ์ €(Browser ํด๋ž˜์Šค + visit_page, page_down, find_in_page ๋ฉ”์„œ๋“œ) ์žฌ์‚ฌ์šฉ์œผ๋กœ ์›นํŽ˜์ด์ง€๋ฅผ ๋งˆํฌ๋‹ค์šด์œผ๋กœ ์••์ถ• ํ‘œํ˜„
  • File inspector ํ†ตํ•ฉ: .xls, .mp3, .pdf ๋“ฑ ๋‹ค์–‘ํ•œ ํŒŒ์ผ ํ˜•์‹ ํŒŒ์‹ฑ์„ Autogen์˜ ์˜คํ”ˆ์†Œ์Šค ๋„๊ตฌ๋กœ ์ง€์›
  • LLM ๊ธฐ๋ฐ˜ ์ž๋™ ์ฝ”๋“œ ์ƒ์„ฑยท์‹คํ–‰: ์—์ด์ „ํŠธ๊ฐ€ Python ์ฝ”๋“œ๋ฅผ ์ž๋™์œผ๋กœ ์ƒ์„ฑํ•˜๊ณ  ์‹คํ–‰ํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ๋ช…์‹œ์  Code Interpreter ๋„๊ตฌ ๋ถˆํ•„์š”

Impact

  • ๊ฒ€์ฆ์…‹ ์„ฑ๋Šฅ: 44.2% ๋‹ฌ์„ฑ (๊ธฐ์กด ์ตœ๊ณ  40%์—์„œ 4.2ํฌ์ธํŠธ ์ƒ์Šน)
  • ํ…Œ์ŠคํŠธ์…‹ ์„ฑ๋Šฅ: 33.3% ๋‹ฌ์„ฑ (Microsoft Autogen ์ œ์ถœ ๋Œ€๋น„ ์ƒ์œ„ ์ˆœ์œ„, Level 3 ๋‚œ์ œ์—์„œ ์ตœ๊ณ  ํ‰๊ท  ์ ์ˆ˜)

Key Takeaway

Code ๊ธฐ๋ฐ˜ ์•ก์…˜ ํ‘œํ˜„์€ JSON ํฌ๋งท ๋Œ€๋น„ ๊ฐ„๊ฒฐ์„ฑ๊ณผ ๋ณ‘๋ ฌยท๋ฐ˜๋ณต ๋กœ์ง ํ‘œํ˜„ ํšจ์œจ์ด ์šฐ์ˆ˜ํ•˜๋ฉฐ, ์ด๋ฅผ ์—์ด์ „ํŠธ ์„ค๊ณ„์˜ ์ค‘์‹ฌ์— ๋‘๋ฉด ๋ณต์žกํ•œ ๋ฉ€ํ‹ฐ์Šคํ… ์ถ”๋ก  ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ฌ ์ˆ˜ ์žˆ๋‹ค. LangChain, LlamaIndex๋Š” ๋ฏธ์ง€์›ํ•˜๊ณ  Autogen์€ ๋ณด์กฐ ๊ธฐ๋Šฅ ์ˆ˜์ค€์ด๋ฏ€๋กœ Transformers Agents๊ฐ€ ํ˜„์žฌ ์ด ํŒจ๋Ÿฌ๋‹ค์ž„์„ ๊ฐ€์žฅ ์ฒ ์ €ํžˆ ๊ตฌํ˜„ํ•œ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๋‹ค.


LLM ๊ธฐ๋ฐ˜ ์—์ด์ „ํŠธ๋ฅผ ๊ตฌ์ถ•ํ•˜๋Š” ํŒ€์—์„œ๋Š” JSON/๋”•์…”๋„ˆ๋ฆฌ ํ˜•์‹ ๋Œ€์‹  Code Action ํŒจ๋Ÿฌ๋‹ค์ž„์„ ์ฑ„ํƒํ•˜๋ฉด 4๊ฐœ ์ด์ƒ์˜ ์—ฐ์‡„์  ์ž‘์—…์„ ๋‹จ์ผ ๋‹จ๊ณ„๋กœ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ์–ด ํ”„๋กฌํ”„ํŠธ ๋ณต์žก๋„๋ฅผ ์ค„์ด๊ณ  ๋ฉ€ํ‹ฐ์Šคํ… ์ถ”๋ก  ์ •ํ™•๋„๋ฅผ ๋†’์ผ ์ˆ˜ ์žˆ๋‹ค.

์›๋ฌธ ์ฝ๊ธฐ