ํผ๋๋ก ๋์๊ฐ๊ธฐ
Hugging Face BlogAI/ML
์๋ฌธ ์ฝ๊ธฐ
Hugging Face๊ฐ Stable-Baselines3์ Hub์ ํตํฉํด Deep Reinforcement Learning ๋ชจ๋ธ์ ๊ณต์ ๋ฐ ๋ก๋ ๊ธฐ๋ฅ ์ ๊ณต
Welcome Stable-baselines3 to the Hugging Face Hub ๐ค
AI ์์ฝ
Context
Deep Reinforcement Learning ์ฐ๊ตฌ์๋ค๊ณผ ๊ฐ๋ฐ์๋ค์ด ํ๋ จ๋ ์์ด์ ํธ ๋ชจ๋ธ์ ๊ณต์ ํ๊ณ ๋ฐฐํฌํ๊ธฐ ์ํ ํตํฉ ํ๋ซํผ์ด ๋ถ์กฑํ๋ค.
Technical Solution
- huggingface_hub์ huggingface_sb3 ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ฅผ ์ค์นํด Stable-Baselines3๊ณผ Hugging Face Hub ์ฐ๋
- load_from_hub() ํจ์๋ก Hub์ ์ ์ฅ๋ ๋ชจ๋ธ์ repo-id์ ํ์ผ๋ช ์ผ๋ก ๋ค์ด๋ก๋ ๋ฐ ๋ก๋
- PPO, MlpPolicy ๋ฑ Stable-Baselines3 ์์ด์ ํธ๋ฅผ ํ๋ จ ํ push_to_hub() ํจ์๋ก Hub์ ์ ๋ก๋
- CartPole-v1, Space Invaders, Breakout, LunarLander ๋ฑ ๋ค์ํ ํ๊ฒฝ์ฉ ์ฌ์ ํ๋ จ ๋ชจ๋ธ ์ ๊ณต
- evaluate_policy() ํจ์๋ก ๋ค์ด๋ก๋๋ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ์ปค๋ฎค๋ํฐ ํ๊ฒฝ์์ ๊ฒ์ฆ ๊ฐ๋ฅ
Key Takeaway
Deep Reinforcement Learning ๋ชจ๋ธ์ ์ค์ํ๋ ์ ์ฅ์์ ํตํฉํจ์ผ๋ก์จ PyTorch ๊ธฐ๋ฐ ์์ด์ ํธ์ ๋ฐฐํฌ-์ฌ์ฌ์ฉ ์ฌ์ดํด์ PyPI๋ Docker Hub์ฒ๋ผ ํ์คํํ ์ ์๋ค.
์ค์ฒ ํฌ์ธํธ
Deep Reinforcement Learning ์์ด์ ํธ๋ฅผ ๊ฐ๋ฐํ๋ ํ์์ huggingface_sb3 ๋ผ์ด๋ธ๋ฌ๋ฆฌ์ load_from_hub()์ push_to_hub() ํจ์๋ฅผ ์ฌ์ฉํ๋ฉด ๋ชจ๋ธ ์ ์ฅ์ ๊ด๋ฆฌ ์ธํ๋ผ ๊ตฌ์ถ ์์ด 2~3์ค์ ์ฝ๋๋ก ๋ชจ๋ธ ๊ณต์ ๋ฐ ๋ก๋๋ฅผ ํ ์ ์๋ค.