Hugging Face๊ฐ Decision Transformer๋ฅผ transformers ๋ผ์ด๋ธ๋ฌ๋ฆฌ์ ํตํฉํด ์คํ๋ผ์ธ ๊ฐํํ์ต์ Transformer ๊ธฐ๋ฐ ์ํ์ค ๋ชจ๋ธ๋ง์ผ๋ก ๊ตฌํ
Introducing Decision Transformers on Hugging Face ๐ค
AI ์์ฝ
Context
์จ๋ผ์ธ ๊ฐํํ์ต์ ์ค์๊ฐ ํ๊ฒฝ ์ํธ์์ฉ์ด ํ์ํ๋ฏ๋ก ์๋ฎฌ๋ ์ดํฐ ๊ตฌ์ถ ๋น์ฉ์ด ๋๊ณ , ์๋ฎฌ๋ ์ดํฐ์ ๊ฒฐํจ์ด ์์ด์ ํธ ํ์ต์ ์ค์ผ์ํฌ ์ ์๋ค. ๋ฐ๋ผ์ ๊ธฐ์กด ๋ฐ์ดํฐ์ ๋ง์ผ๋ก ์ ์ฑ ์ ํ์ตํ ์ ์๋ ์คํ๋ผ์ธ ๊ฐํํ์ต ๋ฐฉ์์ด ํ์ํ๋ค.
Technical Solution
- Decision Transformer ๋ชจ๋ธ์ ์กฐ๊ฑด๋ถ ์ํ์ค ๋ชจ๋ธ๋ง ๋ฌธ์ ๋ก ์ถ์ํ: ์ ์ฑ ์ต์ ํ ํจ์ ๋์ ํธ๋์คํฌ๋จธ๋ฅผ ์ฌ์ฉํด ๋ชฉํ ๋ฆฌํด, ๊ณผ๊ฑฐ ์ํ ๋ฐ ์ก์ ์ ์ ๋ ฅ๋ฐ์ ๋ฏธ๋ ์ก์ ์๋์์ฑ
- GPT-2 ์ํคํ ์ฒ ๊ธฐ๋ฐ ์๋ํ๊ท ๋ชจ๋ธ๋ง: ๋ง์ง๋ง K ํ์์คํ ์ ์ํ, ์ก์ , ๋ฆฌํด์ ์ ํ ์๋ฒ ๋ฉ ๋๋ CNN ์ธ์ฝ๋๋ก ์ฒ๋ฆฌ ํ GPT-2๋ฅผ ํตํด ์ก์ ์์ธก
- Hugging Face transformers ๋ผ์ด๋ธ๋ฌ๋ฆฌ์ DecisionTransformerModel ํด๋์ค ์ถ๊ฐ: from_pretrained() ๋ฉ์๋๋ก ์ฌ์ ํ์ต ๋ชจ๋ธ ๋ก๋ ๊ฐ๋ฅ
- Gym ํ๊ฒฝ(Hopper, Walker2D, Halfcheetah)์์ ํ์ต๋ 9๊ฐ ์ฌ์ ํ์ต ์ฒดํฌํฌ์ธํธ ์ ๊ณต: ๊ฐ ํ๊ฒฝ๋ณ ์ ๋ฌธ๊ฐ ์์ค์ ์ ์ฑ ๋ชจ๋ธ ๋ฐฐํฌ
- Python ์คํฌ๋ฆฝํธ ๋ฐ Colab ๋ ธํธ๋ถ ์ ๊ณต: ๊ฐ ํ์์คํ ์์ ์๋ํ๊ท ๋ชจ๋ธ ์ ๋ ฅ ์ค๋น ๋ฐ ์ถ๋ก ๋ฐฉ์ ์ค๋ช
Key Takeaway
๊ฐํํ์ต ๋ฌธ์ ๋ฅผ ์กฐ๊ฑด๋ถ ์ํ์ค ์์ฑ ํ์คํฌ๋ก ์ฌ์ ์ํ๋ฉด ๊ฒ์ฆ๋ ํธ๋์คํฌ๋จธ ์ํคํ ์ฒ๋ฅผ ์คํ๋ผ์ธ ํ์ต์ ์ง์ ์ ์ฉํ ์ ์์ผ๋ฉฐ, ์ด๋ RL ์๊ณ ๋ฆฌ์ฆ์ ๋ณต์ก์ฑ์ ์ ๊ฑฐํ๊ณ ๊ธฐ์กด ์์ฑ ๋ชจ๋ธ ์ํ๊ณ์ ์ด์ ์ ํ์ฉํ๋ ํจ๋ฌ๋ค์ ์ ํ์ด๋ค.
์ค์ฒ ํฌ์ธํธ
์คํ๋ผ์ธ ๊ฐํํ์ต์ด ํ์ํ ์ฐ์ ํ๊ฒฝ(๋ก๋ด, ์์จ์ฃผํ, ์ ์กฐ)์์ Decision Transformer์ Hugging Face ํตํฉ์ ์ฌ์ฉํ๋ฉด, ์ฌ์ ํ์ต๋ ๋ชจ๋ธ๋ก๋ถํฐ ๋น ๋ฅด๊ฒ ์์ํ ์ ์๊ณ ์๋ก์ด ํ๊ฒฝ์ ๋ง์ถฐ ํ์ธํ๋ํ๋ ๊ฒ์ผ๋ก ์๋ฎฌ๋ ์ดํฐ ๊ตฌ์ถ ์์ด ๊ธฐ์กด ์ด์ ๋ฐ์ดํฐ๋ง์ผ๋ก ์ ์ฑ ์ ์ต๋ํ ์ ์๋ค.