Hugging Face๊ฐ Intel Gaudi ํ๋์จ์ด๋ฅผ Text Generation Inference์ ๋ค์ดํฐ๋ธ ํตํฉ์ผ๋ก ๋ณ๋ ํฌํฌ ์ ๊ฑฐ ๋ฐ ์ต์ ๊ธฐ๋ฅ ๋์ ์ง์
๐ Accelerating LLM Inference with TGI on Intel Gaudi
AI ์์ฝ
Context
Text Generation Inference๋ Intel Gaudi ํ๋์จ์ด ์ง์์ ์ํด ๋ณ๋์ ํฌํฌ ์ ์ฅ์(tgi-gaudi)๋ฅผ ์ ์งํด์ผ ํ์ผ๋ฉฐ, ์ด๋ก ์ธํด ์ฌ์ฉ์ ์ ์ฅ์์ ๋ง์ถค ์ ์ฅ์๋ฅผ ๊ด๋ฆฌํด์ผ ํ๋ ๋ถํธํจ๊ณผ ์ต์ TGI ๊ธฐ๋ฅ์ Gaudi์์ ์ ์ํ๊ฒ ์ง์ํ ์ ์๋ ํ๊ณ๊ฐ ๋ฐ์ํ๋ค.
Technical Solution
- Gaudi ์ง์์ TGI ๋ฉ์ธ ์ฝ๋๋ฒ ์ด์ค(PR #3091)์ ์ง์ ํตํฉ: ๋ณ๋ ํฌํฌ ์ ๊ฑฐ ๋ฐ ๋จ์ผ ์ ์ฅ์์์ ๊ด๋ฆฌ
- ์๋ก์ด TGI ๋ค์ค ๋ฐฑ์๋ ์ํคํ ์ฒ ๋์ : ํ๋์จ์ด ๋ค์์ฑ ์ง์ ๊ฐ๋ฅํ๋๋ก ๋ชจ๋ํ
- 15๊ฐ ์ด์์ LLM ๋ชจ๋ธ ์ต์ ํ: Llama 3.1(8B, 70B), Mixtral(8x7B), Mistral(7B), Falcon(180B) ๋ฑ ๋จ์ผ ๋ฐ ๋ฉํฐ์นด๋ ๊ตฌ์ฑ ๋ชจ๋ ์ง์
- Intel Gaudi์ ์ ์ฒด ํ๋์จ์ด ๋ผ์ธ ์ง์: Gaudi 1, Gaudi 2, Gaudi 3 ํฌํจ
- FP8 ์์ํ ๊ธฐ๋ฅ ์ถ๊ฐ: Intel Neural Compressor(INC)๋ฅผ ํตํ ์ถ๊ฐ ์ฑ๋ฅ ์ต์ ํ ์ ๊ณต
Impact
์ํฐํด์ ์ ๋์ ์ฑ๋ฅ ์์น(์ง์ฐ์๊ฐ, ์ฒ๋ฆฌ๋, ๋น์ฉ ์ ๊ฐ์จ ๋ฑ)๋ ๋ช ์๋์ง ์์.
Key Takeaway
๋ฉํฐ ๋ฐฑ์๋ ์ํคํ ์ฒ๋ก ์ค๊ณํ๋ฉด ์๋ก์ด ๊ฐ์๊ธฐ ํ๋์จ์ด ์ถ๊ฐ ์ ๊ธฐ์กด ๊ธฐ๋ฅ๊ณผ ์ฌ์ฉ์ ๊ฒฝํ์ ์ ์งํ๋ฉด์ ๋น ๋ฅด๊ฒ ํตํฉํ ์ ์๋ค. ํฌํฌ ์ ์ง ๋ฐฉ์์์ ๋จ์ผ ์ฝ๋๋ฒ ์ด์ค ๊ตฌ์กฐ๋ก ์ ํํ๋ฉด ๊ธฐ๋ฅ ์ ๋ฐ์ดํธ ์๋์ ์ฌ์ฉ์ ์ ๊ทผ์ฑ์ด ๋์์ ๊ฐ์ ๋๋ค.
์ค์ฒ ํฌ์ธํธ
LLM ์ถ๋ก ์ธํ๋ผ๋ฅผ ๊ตฌ์ถํ๋ ํ์ Intel Gaudi ํ๋์จ์ด๋ฅผ ์ฌ์ฉํ๋ ค ํ ๋ TGI ๊ณต์ Docker ์ด๋ฏธ์ง(ghcr.io/huggingface/text-generation-inference:3.2.1-gaudi)๋ฅผ Habana ๋ฐํ์์ผ๋ก ์คํํ๋ฉด ๋ณ๋ ์ปค์คํฐ๋ง์ด์ง ์์ด Llama 3.1, Mixtral, Mistral ๋ฑ ์ฌ์ ์ต์ ํ๋ ๋ชจ๋ธ์ ์ฆ์ ๋ฐฐํฌํ ์ ์๋ค. ๋ํ ๋ฉํฐ์นด๋ ์ธํผ๋ฐ์ค ์ค๋ฉ๊ณผ FP8 ์์ํ๋ฅผ ๊ธฐ๋ณธ ์ง์๋ฐ์ผ๋ฏ๋ก GPU ๊ธฐ๋ฐ ๋ฐฐํฌ์ ๋์ผํ ์์ค์ ํ๋ก๋์ ๊ธฐ๋ฅ์ ํ์ฉ ๊ฐ๋ฅํ๋ค.