ํ”ผ๋“œ๋กœ ๋Œ์•„๊ฐ€๊ธฐ
Groq on Hugging Face Inference Providers ๐Ÿ”ฅ
Hugging Face BlogHugging Face Blog
AI/ML

Hugging Face๊ฐ€ Groq๋ฅผ Inference Provider๋กœ ํ†ตํ•ฉํ•ด LPU ๊ธฐ๋ฐ˜ ์ €๋ ˆ์ดํ„ด์‹œ LLM ์ถ”๋ก ์„ Hub ์‚ฌ์šฉ์ž์—๊ฒŒ ์ œ๊ณต

Groq on Hugging Face Inference Providers ๐Ÿ”ฅ

2025๋…„ 6์›” 16์ผ7๋ถ„intermediate

Context

Hugging Face Hub ์‚ฌ์šฉ์ž๋“ค์€ ๋‹ค์–‘ํ•œ ์ถ”๋ก  ์ œ๊ณต์ž(Inference Provider)๋ฅผ ํ†ตํ•ด ๋ชจ๋ธ์„ ์‹คํ–‰ํ•  ์ˆ˜ ์žˆ์–ด์•ผ ํ–ˆ์œผ๋‚˜, GPU ๊ธฐ๋ฐ˜ ์ถ”๋ก ์˜ ๋ ˆ์ดํ„ด์‹œ ํ•œ๊ณ„๊ฐ€ ์‹ค์‹œ๊ฐ„ AI ์• ํ”Œ๋ฆฌ์ผ€์ด์…˜ ๊ตฌ์ถ•์„ ์ œ์•ฝํ–ˆ๋‹ค.

Technical Solution

  • Groq์˜ Language Processing Unit(LPUโ„ข)์„ Inference Provider๋กœ Hub์— ์ถ”๊ฐ€: GPU์˜ ์ˆœ์ฐจ ์ฒ˜๋ฆฌ ๋ณ‘๋ชฉ์„ ๊ทน๋ณตํ•œ ์ „์šฉ ํ•˜๋“œ์›จ์–ด ํ™œ์šฉ
  • ๋‘ ๊ฐ€์ง€ ์ธ์ฆ ๋ชจ๋“œ ๊ตฌํ˜„: ์‚ฌ์šฉ์ž API ํ‚ค๋กœ ์ง์ ‘ ํ˜ธ์ถœํ•˜๊ฑฐ๋‚˜ Hugging Face ๊ณ„์ •์œผ๋กœ ๋ผ์šฐํŒ…
  • Python(huggingface_hub) ๋ฐ JS(@huggingface/inference) SDK์— Groq ์ œ๊ณต์ž ํ†ตํ•ฉ: InferenceClient ์ธ์Šคํ„ด์Šค์— provider="groq" ํŒŒ๋ผ๋ฏธํ„ฐ ์ถ”๊ฐ€
  • ์›น UI ๊ณ„์ • ์„ค์ •์—์„œ API ํ‚ค ๊ด€๋ฆฌ ๋ฐ ์ œ๊ณต์ž ์„ ํƒ ์ˆœ์„œ ์„ค์ • ๊ธฐ๋Šฅ ์ถ”๊ฐ€
  • Meta Llama 4, Qwen QWQ-32B ๋“ฑ ์˜คํ”ˆ์†Œ์Šค ๋ชจ๋ธ ์ง€์›

Impact

์•„ํ‹ฐํด์— ๋ช…์‹œ๋œ ์ •๋Ÿ‰์  ์„ฑ๋Šฅ ์ˆ˜์น˜ ์—†์Œ (LPU์˜ "์œ ์˜๋ฏธํ•˜๊ฒŒ ๋‚ฎ์€ ๋ ˆ์ดํ„ด์‹œ์™€ ๋†’์€ ์ฒ˜๋ฆฌ๋Ÿ‰" ์ œ๊ณต๋งŒ ์–ธ๊ธ‰)

Key Takeaway

๋‹ค์ค‘ ์ถ”๋ก  ์ œ๊ณต์ž ํ†ตํ•ฉ ์•„ํ‚คํ…์ฒ˜์—์„œ๋Š” ํ‘œ์ค€ํ™”๋œ SDK ์ธํ„ฐํŽ˜์ด์Šค(provider ํŒŒ๋ผ๋ฏธํ„ฐ)์™€ ์œ ์—ฐํ•œ ์ธ์ฆ ์ „๋žต(์ง์ ‘ ํ˜ธ์ถœ/๋ผ์šฐํŒ…)์œผ๋กœ ์‚ฌ์šฉ์ž์—๊ฒŒ ํ•˜๋“œ์›จ์–ด ์„ ํƒ๊ถŒ์„ ํˆฌ๋ช…ํ•˜๊ฒŒ ์ œ๊ณตํ•  ์ˆ˜ ์žˆ๋‹ค.


LLM ์ถ”๋ก ์ด ํ•„์š”ํ•œ ์• ํ”Œ๋ฆฌ์ผ€์ด์…˜์—์„œ Groq API ํ‚ค๋ฅผ InferenceClient(provider="groq")์— ์ „๋‹ฌํ•˜๋ฉด GPU ๊ธฐ๋ฐ˜ ์ถ”๋ก  ๋Œ€๋น„ ์ €๋ ˆ์ดํ„ด์‹œ ์‘๋‹ต์„ ์–ป์„ ์ˆ˜ ์žˆ์œผ๋ฉฐ, Hugging Face ๊ณ„์ •์œผ๋กœ ๋ผ์šฐํŒ…ํ•  ๊ฒฝ์šฐ ๋ณ„๋„ ๊ณ„์•ฝ ์—†์ด ํ‘œ์ค€ API ๊ฐ€๊ฒฉ๋งŒ ์ง€๋ถˆํ•˜๋ฉด ๋œ๋‹ค.

์›๋ฌธ ์ฝ๊ธฐ