ํ”ผ๋“œ๋กœ ๋Œ์•„๊ฐ€๊ธฐ
Introducing new audio and vision documentation in ๐Ÿค— Datasets
Hugging Face BlogHugging Face Blog
Backend

Hugging Face๊ฐ€ ๐Ÿค— Datasets ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ์— ์˜ค๋””์˜ค์™€ ๋น„์ „ ๋ฐ์ดํ„ฐ์…‹ ์ „์šฉ ๋ฌธ์„œ์™€ ImageFolder ๋นŒ๋”๋ฅผ ์ถ”๊ฐ€ํ•ด ์ด๋ฏธ์ง€ ๋ถ„๋ฅ˜ ๋ฐ ๊ฐ์ฒด ๊ฐ์ง€ ์ž‘์—…์˜ ๋ฐ์ดํ„ฐ์…‹ ๋กœ๋”ฉ ์ฝ”๋“œ ์ž‘์„ฑ ์ œ๊ฑฐ

Introducing new audio and vision documentation in ๐Ÿค— Datasets

2022๋…„ 7์›” 28์ผ6๋ถ„beginner

Context

๐Ÿค— Datasets๋Š” NLP ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ์…‹ ์ค‘์‹ฌ์œผ๋กœ ๋ฐœ์ „ํ–ˆ์œผ๋‚˜, ์˜ค๋””์˜ค, ์ด๋ฏธ์ง€ ๋“ฑ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ฐ์ดํ„ฐ์…‹์˜ ๋กœ๋”ฉ๊ณผ ์ „์ฒ˜๋ฆฌ ๋ฐฉ์‹์ด ํ…์ŠคํŠธ์™€ ์ƒ์ดํ•˜๋ฉด์„œ ์‚ฌ์šฉ์ž ๊ฒฝํ—˜์ด ๋ถ„์‚ฐ๋˜์—ˆ๋‹ค. ๋˜ํ•œ ์ด๋ฏธ์ง€ ๋ฐ์ดํ„ฐ์…‹์„ ๋กœ๋“œํ•˜๊ธฐ ์œ„ํ•ด ๋งค๋ฒˆ ์ปค์Šคํ…€ ๋กœ๋”ฉ ์Šคํฌ๋ฆฝํŠธ๋ฅผ ์ž‘์„ฑํ•ด์•ผ ํ–ˆ๋‹ค.

Technical Solution

  • Quickstart ๊ฐ€์ด๋“œ ํ™•์žฅ: ํ…์ŠคํŠธ, ์˜ค๋””์˜ค, ์ด๋ฏธ์ง€ ๋ฐ์ดํ„ฐ์…‹์˜ ์—”๋“œ-ํˆฌ-์—”๋“œ ๋กœ๋”ฉ ๋ฐ ์ „์ฒ˜๋ฆฌ ์˜ˆ์ œ ์ถ”๊ฐ€
  • to_tf_dataset ํ•จ์ˆ˜ ๋„์ž…: ๐Ÿค— Datasets์˜ Dataset ๊ฐ์ฒด๋ฅผ tf.data.Dataset์œผ๋กœ ์ž๋™ ๋ณ€ํ™˜ํ•˜๋ฉด์„œ ์…”ํ”Œ๋ง ๋ฐ ๋ฐฐ์น˜ ๋กœ๋”ฉ ์ž๋™ํ™”
  • ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ๋ณ„ ์ „์šฉ ๋ฌธ์„œ ์„น์…˜ ์‹ ์„ค: ์˜ค๋””์˜ค, ์ด๋ฏธ์ง€ ๋“ฑ ๊ฐ ๋ฐ์ดํ„ฐ ํƒ€์ž…๋ณ„ ๋กœ๋”ฉ ๋ฐ ์ „์ฒ˜๋ฆฌ ๊ฐ€์ด๋“œ ๋ถ„๋ฆฌ
  • ImageFolder ๋ฐ์ดํ„ฐ์…‹ ๋นŒ๋” ์ถœ์‹œ: ํด๋” ๊ตฌ์กฐ(folder/train/class/image.png)๋งŒ์œผ๋กœ ์ด๋ฏธ์ง€ ๋ถ„๋ฅ˜ ๋ฐ์ดํ„ฐ์…‹ ๋กœ๋“œ, ๋””๋ ‰ํ† ๋ฆฌ๋ช… ๊ธฐ๋ฐ˜ ๋ ˆ์ด๋ธ” ์ž๋™ ์ƒ์„ฑ
  • ImageFolder ๋ฉ”ํƒ€๋ฐ์ดํ„ฐ ์ง€์›: JSON ๋ฉ”ํƒ€๋ฐ์ดํ„ฐ ํŒŒ์ผ(๋ฐ”์šด๋”ฉ๋ฐ•์Šค, ์นดํ…Œ๊ณ ๋ฆฌ ์ •๋ณด)์„ ์—ฐ๊ฒฐํ•˜๋ฉด ๊ฐ์ฒด ๊ฐ์ง€, ์ด๋ฏธ์ง€ ์บก์…”๋‹ ๋“ฑ ๋‹ค์–‘ํ•œ ๋น„์ „ ํƒœ์Šคํฌ ์ง€์›

Key Takeaway

๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ฐ์ดํ„ฐ์…‹ ์ฒ˜๋ฆฌ๋ฅผ ๋‹จ์ˆœํ™”ํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š” ๊ฐ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ์˜ ๊ณ ์œ ํ•œ ์ „์ฒ˜๋ฆฌ ํŠน์„ฑ(์˜ˆ: ์˜ค๋””์˜ค์˜ ์ž๋™ ๋””์ฝ”๋”ฉ ๋ฐ ๋ฆฌ์ƒ˜ํ”Œ๋ง)์„ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ์— ๋‚ด์žฅํ•˜๊ณ  ํ‘œ์ค€ํ™”๋œ ํด๋” ๊ตฌ์กฐ ๊ด€๋ก€๋ฅผ ์ œ์‹œํ•˜๋ฉฐ, ํ”„๋ ˆ์ž„์›Œํฌ๋ณ„ ๋ณ€ํ™˜ ํ•จ์ˆ˜(to_tf_dataset)๋ฅผ ์ œ๊ณตํ•ด ๋ณด์ผ๋Ÿฌํ”Œ๋ ˆ์ดํŠธ ์ฝ”๋“œ๋ฅผ ์ œ๊ฑฐํ•˜๋Š” ๊ฒƒ์ด ๊ฐœ๋ฐœ์ž ๊ฒฝํ—˜ ํ–ฅ์ƒ์˜ ํ•ต์‹ฌ์ด๋‹ค.


๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋จธ์‹ ๋Ÿฌ๋‹ ๋ฐ์ดํ„ฐํŒŒ์ดํ”„๋ผ์ธ์„ ๊ตฌ์ถ•ํ•˜๋Š” ํŒ€์—์„œ ๐Ÿค— Datasets์˜ ImageFolder์™€ to_tf_dataset์„ ์ ์šฉํ•˜๋ฉด ์ด๋ฏธ์ง€ ๋ถ„๋ฅ˜/๊ฐ์ฒด ๊ฐ์ง€ ๋ฐ์ดํ„ฐ์…‹ ๋กœ๋”ฉ ์ฝ”๋“œ๋ฅผ ์ž‘์„ฑํ•  ํ•„์š”๊ฐ€ ์—†์–ด์ง€๋ฏ€๋กœ, ๋ฐ์ดํ„ฐ ์ค€๋น„ ๋‹จ๊ณ„์—์„œ ์Šคํฌ๋ฆฝํŠธ ์ž‘์„ฑ ์‹œ๊ฐ„์„ ์ œ๊ฑฐํ•˜๊ณ  PyTorch/TensorFlow ๋ชจ๋ธ ํ•™์Šต์œผ๋กœ ๋น ๋ฅด๊ฒŒ ์ง„ํ–‰ํ•  ์ˆ˜ ์žˆ๋‹ค.

์›๋ฌธ ์ฝ๊ธฐ