Hugging Face๊ฐ ๐ค Datasets ๋ผ์ด๋ธ๋ฌ๋ฆฌ์ ์ค๋์ค์ ๋น์ ๋ฐ์ดํฐ์ ์ ์ฉ ๋ฌธ์์ ImageFolder ๋น๋๋ฅผ ์ถ๊ฐํด ์ด๋ฏธ์ง ๋ถ๋ฅ ๋ฐ ๊ฐ์ฒด ๊ฐ์ง ์์ ์ ๋ฐ์ดํฐ์ ๋ก๋ฉ ์ฝ๋ ์์ฑ ์ ๊ฑฐ
Introducing new audio and vision documentation in ๐ค Datasets
AI ์์ฝ
Context
๐ค Datasets๋ NLP ํ ์คํธ ๋ฐ์ดํฐ์ ์ค์ฌ์ผ๋ก ๋ฐ์ ํ์ผ๋, ์ค๋์ค, ์ด๋ฏธ์ง ๋ฑ ๋ฉํฐ๋ชจ๋ฌ ๋ฐ์ดํฐ์ ์ ๋ก๋ฉ๊ณผ ์ ์ฒ๋ฆฌ ๋ฐฉ์์ด ํ ์คํธ์ ์์ดํ๋ฉด์ ์ฌ์ฉ์ ๊ฒฝํ์ด ๋ถ์ฐ๋์๋ค. ๋ํ ์ด๋ฏธ์ง ๋ฐ์ดํฐ์ ์ ๋ก๋ํ๊ธฐ ์ํด ๋งค๋ฒ ์ปค์คํ ๋ก๋ฉ ์คํฌ๋ฆฝํธ๋ฅผ ์์ฑํด์ผ ํ๋ค.
Technical Solution
- Quickstart ๊ฐ์ด๋ ํ์ฅ: ํ ์คํธ, ์ค๋์ค, ์ด๋ฏธ์ง ๋ฐ์ดํฐ์ ์ ์๋-ํฌ-์๋ ๋ก๋ฉ ๋ฐ ์ ์ฒ๋ฆฌ ์์ ์ถ๊ฐ
- to_tf_dataset ํจ์ ๋์ : ๐ค Datasets์ Dataset ๊ฐ์ฒด๋ฅผ tf.data.Dataset์ผ๋ก ์๋ ๋ณํํ๋ฉด์ ์ ํ๋ง ๋ฐ ๋ฐฐ์น ๋ก๋ฉ ์๋ํ
- ๋ชจ๋ฌ๋ฆฌํฐ๋ณ ์ ์ฉ ๋ฌธ์ ์น์ ์ ์ค: ์ค๋์ค, ์ด๋ฏธ์ง ๋ฑ ๊ฐ ๋ฐ์ดํฐ ํ์ ๋ณ ๋ก๋ฉ ๋ฐ ์ ์ฒ๋ฆฌ ๊ฐ์ด๋ ๋ถ๋ฆฌ
- ImageFolder ๋ฐ์ดํฐ์ ๋น๋ ์ถ์: ํด๋ ๊ตฌ์กฐ(folder/train/class/image.png)๋ง์ผ๋ก ์ด๋ฏธ์ง ๋ถ๋ฅ ๋ฐ์ดํฐ์ ๋ก๋, ๋๋ ํ ๋ฆฌ๋ช ๊ธฐ๋ฐ ๋ ์ด๋ธ ์๋ ์์ฑ
- ImageFolder ๋ฉํ๋ฐ์ดํฐ ์ง์: JSON ๋ฉํ๋ฐ์ดํฐ ํ์ผ(๋ฐ์ด๋ฉ๋ฐ์ค, ์นดํ ๊ณ ๋ฆฌ ์ ๋ณด)์ ์ฐ๊ฒฐํ๋ฉด ๊ฐ์ฒด ๊ฐ์ง, ์ด๋ฏธ์ง ์บก์ ๋ ๋ฑ ๋ค์ํ ๋น์ ํ์คํฌ ์ง์
Key Takeaway
๋ฉํฐ๋ชจ๋ฌ ๋ฐ์ดํฐ์ ์ฒ๋ฆฌ๋ฅผ ๋จ์ํํ๊ธฐ ์ํด์๋ ๊ฐ ๋ชจ๋ฌ๋ฆฌํฐ์ ๊ณ ์ ํ ์ ์ฒ๋ฆฌ ํน์ฑ(์: ์ค๋์ค์ ์๋ ๋์ฝ๋ฉ ๋ฐ ๋ฆฌ์ํ๋ง)์ ๋ผ์ด๋ธ๋ฌ๋ฆฌ์ ๋ด์ฅํ๊ณ ํ์คํ๋ ํด๋ ๊ตฌ์กฐ ๊ด๋ก๋ฅผ ์ ์ํ๋ฉฐ, ํ๋ ์์ํฌ๋ณ ๋ณํ ํจ์(to_tf_dataset)๋ฅผ ์ ๊ณตํด ๋ณด์ผ๋ฌํ๋ ์ดํธ ์ฝ๋๋ฅผ ์ ๊ฑฐํ๋ ๊ฒ์ด ๊ฐ๋ฐ์ ๊ฒฝํ ํฅ์์ ํต์ฌ์ด๋ค.
์ค์ฒ ํฌ์ธํธ
๋ฉํฐ๋ชจ๋ฌ ๋จธ์ ๋ฌ๋ ๋ฐ์ดํฐํ์ดํ๋ผ์ธ์ ๊ตฌ์ถํ๋ ํ์์ ๐ค Datasets์ ImageFolder์ to_tf_dataset์ ์ ์ฉํ๋ฉด ์ด๋ฏธ์ง ๋ถ๋ฅ/๊ฐ์ฒด ๊ฐ์ง ๋ฐ์ดํฐ์ ๋ก๋ฉ ์ฝ๋๋ฅผ ์์ฑํ ํ์๊ฐ ์์ด์ง๋ฏ๋ก, ๋ฐ์ดํฐ ์ค๋น ๋จ๊ณ์์ ์คํฌ๋ฆฝํธ ์์ฑ ์๊ฐ์ ์ ๊ฑฐํ๊ณ PyTorch/TensorFlow ๋ชจ๋ธ ํ์ต์ผ๋ก ๋น ๋ฅด๊ฒ ์งํํ ์ ์๋ค.