Hugging Face์ Transformers Agents๊ฐ Code Agent ๋ฐฉ์ ๋์ ์ผ๋ก GAIA ๋ฒค์น๋งํฌ์์ ๊ฒ์ฆ์ 44.2% ๋ฌ์ฑํด ๊ธฐ์กด ์ต๊ณ ์ฑ๋ฅ(40%)์ ์ด๊ณผ
Our Transformers Code Agent beats the GAIA benchmark ๐
AI ์์ฝ
Context
LLM ๊ธฐ๋ฐ ์์ด์ ํธ ์์คํ ์ ๋ณต์กํ ๋ฉํฐ์คํ ์ถ๋ก ๊ณผ ๋๊ตฌ ์ ํ์ด ํ์ํ ๋ฌธ์ ํด๊ฒฐ์ ์ด๋ ค์์ ๊ฒช๊ณ ์๋ค. GAIA ๋ฒค์น๋งํฌ๋ ์ ๋ณด ์์ง์ ์์ฐจ์ ์์กด์ฑ, ์ด๋ฏธ์ง ๋ถ์, ํ์ ์ ์ฝ ๋ฑ ์ฌ๋ฌ ๋์ ๋ฅผ ํฌํจํด ์์ด์ ํธ ์ฑ๋ฅ ํ๊ฐ์ ํ์ค์ด ๋๊ณ ์๋ค(GPT-4-Turbo 7% ๋ฏธ๋ง, ๊ธฐ์กด ์ต๊ณ Autogen ๊ธฐ๋ฐ ์๋ฃจ์ 40%).
Technical Solution
- Code Agent ๋์ : JSON/OAI ํ์ ๋์ Python ์ฝ๋๋ก ์์ด์ ํธ ์ก์ ์ ํํํด ๋ณต์กํ ๋ค์ค ๋จ๊ณ ์์ ์ 1๋จ๊ณ๋ก ์ฒ๋ฆฌ ๊ฐ๋ฅํ๋๋ก ๋ณ๊ฒฝ
- Web browser ๋๊ตฌ ๊ตฌ์ฑ: Autogen์ Markdown ๊ธฐ๋ฐ ์น๋ธ๋ผ์ฐ์ (Browser ํด๋์ค + visit_page, page_down, find_in_page ๋ฉ์๋) ์ฌ์ฌ์ฉ์ผ๋ก ์นํ์ด์ง๋ฅผ ๋งํฌ๋ค์ด์ผ๋ก ์์ถ ํํ
- File inspector ํตํฉ: .xls, .mp3, .pdf ๋ฑ ๋ค์ํ ํ์ผ ํ์ ํ์ฑ์ Autogen์ ์คํ์์ค ๋๊ตฌ๋ก ์ง์
- LLM ๊ธฐ๋ฐ ์๋ ์ฝ๋ ์์ฑยท์คํ: ์์ด์ ํธ๊ฐ Python ์ฝ๋๋ฅผ ์๋์ผ๋ก ์์ฑํ๊ณ ์คํํ๋ ๋ฐฉ์์ผ๋ก ๋ช ์์ Code Interpreter ๋๊ตฌ ๋ถํ์
Impact
- ๊ฒ์ฆ์ ์ฑ๋ฅ: 44.2% ๋ฌ์ฑ (๊ธฐ์กด ์ต๊ณ 40%์์ 4.2ํฌ์ธํธ ์์น)
- ํ ์คํธ์ ์ฑ๋ฅ: 33.3% ๋ฌ์ฑ (Microsoft Autogen ์ ์ถ ๋๋น ์์ ์์, Level 3 ๋์ ์์ ์ต๊ณ ํ๊ท ์ ์)
Key Takeaway
Code ๊ธฐ๋ฐ ์ก์ ํํ์ JSON ํฌ๋งท ๋๋น ๊ฐ๊ฒฐ์ฑ๊ณผ ๋ณ๋ ฌยท๋ฐ๋ณต ๋ก์ง ํํ ํจ์จ์ด ์ฐ์ํ๋ฉฐ, ์ด๋ฅผ ์์ด์ ํธ ์ค๊ณ์ ์ค์ฌ์ ๋๋ฉด ๋ณต์กํ ๋ฉํฐ์คํ ์ถ๋ก ์ฑ๋ฅ์ ํฅ์์ํฌ ์ ์๋ค. LangChain, LlamaIndex๋ ๋ฏธ์ง์ํ๊ณ Autogen์ ๋ณด์กฐ ๊ธฐ๋ฅ ์์ค์ด๋ฏ๋ก Transformers Agents๊ฐ ํ์ฌ ์ด ํจ๋ฌ๋ค์์ ๊ฐ์ฅ ์ฒ ์ ํ ๊ตฌํํ ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ค.
์ค์ฒ ํฌ์ธํธ
LLM ๊ธฐ๋ฐ ์์ด์ ํธ๋ฅผ ๊ตฌ์ถํ๋ ํ์์๋ JSON/๋์ ๋๋ฆฌ ํ์ ๋์ Code Action ํจ๋ฌ๋ค์์ ์ฑํํ๋ฉด 4๊ฐ ์ด์์ ์ฐ์์ ์์ ์ ๋จ์ผ ๋จ๊ณ๋ก ํํํ ์ ์์ด ํ๋กฌํํธ ๋ณต์ก๋๋ฅผ ์ค์ด๊ณ ๋ฉํฐ์คํ ์ถ๋ก ์ ํ๋๋ฅผ ๋์ผ ์ ์๋ค.