Hugging Face๊ฐ GPT-Neo์ Accelerated Inference API๋ฅผ ์กฐํฉํด ์ ์ ๋ฐ์ดํฐ๋ก๋ NLP ์์ ์ํ ๊ฐ๋ฅํ Few-Shot Learning ์คํ
Few-shot learning in practice: GPT-Neo and the ๐ค Accelerated Inference API
AI ์์ฝ
Context
๊ธฐ๊ณํ์ต ๋ชจ๋ธ ๊ตฌ์ถ ์ ๋๋์ ๋ ์ด๋ธ ๋ฐ์ดํฐ ํ๋ณด๊ฐ ๋ณ๋ชฉ์ด ๋๋ ๋ฌธ์ ๊ฐ ์์์ผ๋ฉฐ, ๊ธฐ์กด์ ํ์ธํ๋ ๋ฐฉ์์ ๋ง์ ํ์ต ๋ฐ์ดํฐ๋ฅผ ํ์๋ก ํ๋ค.
Technical Solution
- Few-Shot Learning ๊ธฐ๋ฒ ๋์ : ์ถ๋ก ์์ ์ ์์์ ์์ (3~4๊ฐ)๋ง ์ ๊ณตํด ๋ชจ๋ธ์ด ์์ ์ ์ดํดํ๋๋ก ์ ๋
- GPT-Neo(2.7B) ๋ชจ๋ธ ํ์ฉ: EleutherAI์ ์คํ ์์ค GPT ์ํคํ ์ฒ ๊ธฐ๋ฐ ๋ชจ๋ธ๋ก ์์ ์ผ๋ฐํ ๋ฅ๋ ฅ ์ ๊ณต
- Accelerated Inference API ๊ตฌํ: REST API๋ฅผ ํตํด CPU/GPU ๊ธฐ๋ฐ ์ถ๋ก ๊ฐ์ํ(์ต๋ 100๋ฐฐ ์๋ ํฅ์)
- ํ๋กฌํํธ ๊ตฌ์กฐํ: ์์ ์ค๋ช (Task Description) + ์์ (Examples) + ํ๋กฌํํธ(Prompt) 3๊ฐ์ง ์์๋ก ๊ตฌ์ฑ
- ํ์ดํผํ๋ผ๋ฏธํฐ ์ ์ด: max_new_tokens, temperature, end_sequence ํ๋ผ๋ฏธํฐ๋ก ์์ฑ ํ ์คํธ ์ ์ด
Impact
GPT-Neo(2.7B)๊ฐ GPT-3(175B) ๋๋น ์ฝ 60๋ฐฐ ์์ ๋ชจ๋ธ์์๋ 3~4๊ฐ ์์ ์ ๊ณต ์ ์ํธํ ์ฑ๋ฅ ๋ฌ์ฑ ๊ฐ๋ฅ. Accelerated Inference API ์ฌ์ฉ ์ ๊ธฐ๋ณธ Transformers ๋ฐฐํฌ ๋๋น ์ต๋ 100๋ฐฐ ์๋ ํฅ์.
Key Takeaway
Few-Shot Learning์ ๋ฐ์ดํฐ ๋ถ์กฑ ์ํฉ์์ ๊ฐ๋ ฅํ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ์ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ํ์ฉํ๋ ๊ธฐ๋ฒ์ด๋, ์ฌ์ ํ์ต ๋ฐ์ดํฐ์ ํธํฅ์ด ์ฆํญ๋ ์ ์์ผ๋ฏ๋ก ์๋ ์์ฌ๊ฒฐ์ ์์คํ ์ ์ ์ฉ ์ ์ธ๊ฐ ๊ฐ์ ๋ฉ์ปค๋์ฆ๊ณผ ํผ๋๋ฐฑ ๋ชจ๋ํฐ๋ง์ด ํ์์ ์ด๋ค.
์ค์ฒ ํฌ์ธํธ
์ ํ๋ ๋ ์ด๋ธ ๋ฐ์ดํฐ๋ก NLP ๋ถ๋ฅ ์์ ์ ์ํํด์ผ ํ๋ ํ์์ Hugging Face Accelerated Inference API๋ฅผ ํตํด GPT-Neo ๋ชจ๋ธ์ 3~4๊ฐ์ ์์ง์ ์์ ๋ฅผ ๊ตฌ์ฑํด ์ ๊ณตํ๋ฉด, ํ์ธํ๋ ์์ด๋ ์์ ์ํ์ด ๊ฐ๋ฅํ๋ฉฐ, temperature๋ฅผ 0.1~0.5 ๋ฒ์๋ก ์กฐ์ ํ๊ณ end_sequence ํ๋ผ๋ฏธํฐ๋ก ์์ฑ ๊ธธ์ด๋ฅผ ์ ํํ๋ฉด ์ถ๋ ฅ ํ์ง์ ์ ์ดํ ์ ์๋ค. ๋จ, ๊ฐ์ ๋ถ์ ๋ฑ ๋ฏผ๊ฐํ ์์ ์ ๊ฒฝ์ฐ ๋ชจ๋ธ ์์ธก ๊ฒฐ๊ณผ๊ฐ ์ฅ์ ์ธ ๋ฑ ํน์ ์ฌ์ฉ์ ์ง๋จ์ ์ฐจ๋ณ์ ์ผ๋ก ์์ฉํ ์ ์์ผ๋ฏ๋ก, ์ฌ์ฉ์์๊ฒ ๋ชจ๋ธ ๊ธฐ๋ฐ ๊ฒฐ์ ์ ๋ช ์ํ๊ณ ๊ฑฐ๋ถ ์ต์ ์ ์ ๊ณตํ๋ฉฐ ์ค๋ฅ ํผ๋๋ฐฑ์ ์์งํด์ผ ํ๋ค.