Hugging Face๊ฐ Vision Transformer ๋์ ๋ถํฐ ์์ํด 8๊ฐ ํต์ฌ ์ปดํจํฐ ๋น์ ํ์คํฌ, 3000๊ฐ ์ด์์ ๋ชจ๋ธ, 100๊ฐ ์ด์์ ๋ฐ์ดํฐ์ ์ Hub์ ํตํฉ
The State of Computer Vision at Hugging Face ๐ค
AI ์์ฝ
Context
Hugging Face๋ AI์ ๋ฏผ์ฃผํ๋ผ๋ ๋ฏธ์ ํ์์ ์์ฐ์ด์ฒ๋ฆฌ๋ฅผ ๋์ด ์ปดํจํฐ ๋น์ ์์ญ์ผ๋ก ํ์ฅํ ํ์๊ฐ ์์๋ค. ๊ธฐ์กด์๋ Vision Transformer(ViT) ํ๋์ ์ํคํ ์ฒ๋ง ์ ํ์ ์ผ๋ก ์ง์ํ๋ ์ํฉ์์ ์ฐ์ ํ์ฅ์ ๋ค์ํ ๋น์ ํ์คํฌ์ ๋์ํด์ผ ํ๋ค.
Technical Solution
- 8๊ฐ ํต์ฌ ๋น์ ํ์คํฌ ์ง์ ์ถ๊ฐ: ์ด๋ฏธ์ง ๋ถ๋ฅ, ์ด๋ฏธ์ง ์ธ๋ถํ, Zero-shot ๊ฐ์ฒด ํ์ง, ๋น๋์ค ๋ถ๋ฅ, ๊น์ด ์ถ์ , ์ด๋ฏธ์ง-์ด๋ฏธ์ง ํฉ์ฑ, ๋ฌด์กฐ๊ฑด๋ถ ์ด๋ฏธ์ง ์์ฑ, Zero-shot ์ด๋ฏธ์ง ๋ถ๋ฅ
- Vision-Language ๊ต์ฐจ ํ์คํฌ ํตํฉ: ์ด๋ฏธ์ง-ํ ์คํธ(์ด๋ฏธ์ง ์บก์ ๋, OCR), ํ ์คํธ-์ด๋ฏธ์ง, ๋ฌธ์ ์ง๋ต, ์๊ฐ ์ง๋ต(VQA) ์ง์
- ๋ค์ํ ์ํคํ ์ฒ ์ง์ ํ๋: Transformer ๊ธฐ๋ฐ(ViT, Swin, DETR) ์ธ์๋ ์์ ํฉ์ฑ๊ณฑ ์ ๊ฒฝ๋ง(ConvNeXt, ResNet, RegNet) ํฌํจ
- Pipelines API๋ก ์ถ๋ก ๋จ์ํ: 7๊ฐ ๋น์ ํ์คํฌ์ ๋ํด 3~5์ค ์ฝ๋๋ก ์ถ๋ก ์ํ ๊ฐ๋ฅํ๋๋ก ํต์ผ๋ ์ธํฐํ์ด์ค ์ ๊ณต
- Trainer API๋ก ๋ฏธ์ธ์กฐ์ ์ง์: ์ด๋ฏธ์ง ๋ถ๋ฅ, ์ด๋ฏธ์ง ์ธ๋ถํ, ๋น๋์ค ๋ถ๋ฅ, ๊ฐ์ฒด ํ์ง, ๊น์ด ์ถ์ ์ ๋ํด Trainer๋ก ํตํฉ๋ ํ์ต ์ง์
- Datasets์ ์ฆ๊ฐ ๋ผ์ด๋ธ๋ฌ๋ฆฌ ํตํฉ: ImageNet-1k, Scene Parsing, NYU Depth V2, COYO-700M, LAION-400M ๋ฑ 100๊ฐ ์ด์ ๋ฐ์ดํฐ์ ์ ๊ทผ ๋ฐ albumentations, Kornia ๋ผ์ด๋ธ๋ฌ๋ฆฌ ์ฐ๋
- Zero-shot ๋ชจ๋ธ ์ง์: CLIP(Zero-shot ์ด๋ฏธ์ง ๋ถ๋ฅ), OWL-ViT(Zero-shot ๊ฐ์ฒด ํ์ง), CLIPSeg(Zero-shot ์ธ๋ถํ), GroupViT(Zero-shot ์ธ๋ถํ), X-CLIP(Zero-shot ๋น๋์ค ๋ถ๋ฅ) ์ถ๊ฐ
- Inference Endpoints๋ฅผ ํตํ ๋ฐฐํฌ: ์ด๋ฏธ์ง ๋ถ๋ฅ, ๊ฐ์ฒด ํ์ง, ์ด๋ฏธ์ง ์ธ๋ถํ๋ ์ง์ ํตํฉ, ๊ธฐํ ํ์คํฌ๋ ์ปค์คํ ํธ๋ค๋ฌ๋ก ์ง์
Impact
Hub์ 3000๊ฐ ์ด์์ ๋ชจ๋ธ ์ ๊ณต, 100๊ฐ ์ด์์ ์ปดํจํฐ ๋น์ ๋ฐ์ดํฐ์ ํตํฉ
Key Takeaway
์คํ์์ค ML ์ํ๊ณ์ ๋ฏผ์ฃผํ๋ ๋จ์ผ ๋ผ์ด๋ธ๋ฌ๋ฆฌ ๋ด ๊ธฐ๋ฅ ํตํฉ๋ณด๋ค๋ Transformer, PyTorch๋ฟ ์๋๋ผ ์ 3์ ๋ผ์ด๋ธ๋ฌ๋ฆฌ๊น์ง ํฌํจํ ํ์คํ๋ ์ธํฐํ์ด์ค(Pipeline, Trainer, Hub)๋ฅผ ํตํด ๋ฌ์ฑ๋๋ค. ์ํคํ ์ฒ ์ ํ์ ์์ ๋์ ํ๋ก๋์ ๋ฐฐํฌ ๊ฒฝ๋ก์ ๋จ์์ฑ์ด ์ปค๋ฎค๋ํฐ ์ฑํ๋ฅ ์ ๊ฒฐ์ ํ๋ค.
์ค์ฒ ํฌ์ธํธ
์ปดํจํฐ ๋น์ ๋ชจ๋ธ์ ํ๋ก๋์ ์ ๋ฐฐํฌํด์ผ ํ๋ ํ์์๋ ์์ ์ ํ์คํฌ(๋ถ๋ฅ, ํ์ง, ์ธ๋ถํ ๋ฑ)์ ํด๋นํ๋ Hub์ ์ฌ์ ํ์ต ๋ชจ๋ธ๊ณผ Datasets๋ฅผ ๋จผ์ ํ์ธํ ํ, Pipelines๋ก ๋น ๋ฅธ ํ๋กํ ํ์ ์ ๊ตฌ์ฑํ๊ณ , ๋ฐ์ดํฐ์ ์ด ์ถฉ๋ถํ๋ฉด Trainer๋ก ๋ฏธ์ธ์กฐ์ ํ๊ณ , ์ต์ข ์ ์ผ๋ก Inference Endpoints ๋๋ ์ปค์คํ ํธ๋ค๋ฌ๋ก ๋ฐฐํฌํ๋ ํตํฉ ์ํฌํ๋ก์ฐ๋ฅผ ์ ์ฉํ ์ ์๋ค.