ํผ๋๋ก ๋์๊ฐ๊ธฐ
Dev.toAI/ML
์๋ฌธ ์ฝ๊ธฐ
Gemma 4 26B MoE ๊ธฐ๋ฐ์ผ๋ก API ๋น์ฉ 0์ ๋ฐ ํ๋ผ์ด๋ฒ์ ํ๋ณดํ ๋ก์ปฌ AI ์ฝ๋ฉ ํ๊ฒฝ ๊ตฌ์ถ
Building a Fully Offline AI Coding Assistant with Gemma 4 โ No Cloud Required ๐ค
AI ์์ฝ
Context
Cloud API ๊ธฐ๋ฐ AI ์ด์์คํดํธ์ ์ง์์ ์ธ ๋น์ฉ ๋ฐ์ ๋ฐ ๊ธฐ์ ๋ด๋ถ ์ฝ๋ ์ ์ถ ๋ฆฌ์คํฌ ์กด์ฌ. ๊ธฐ์กด ๋ก์ปฌ LLM์ ๋ฎ์ Function-calling ์ฑ๋ฅ์ผ๋ก ์ธํด ์ค๋ฌด ์์ค์ Agentic Coding ๊ตฌํ์ ํ๊ณ ๋ ธ์ถ.
Technical Solution
- Gemma 4 26B MoE ๋ชจ๋ธ ์ฑํ์ ํตํ ์ถ๋ก ํจ์จ์ฑ ๋ฐ ์ง๋ฅ์ ๊ท ํ ํ๋ณด
- Mixture of Experts(MoE) ๊ตฌ์กฐ๋ฅผ ํตํ ํ ํฐ๋น 3.8B ํ๋ผ๋ฏธํฐ๋ง ํ์ฑํํ์ฌ ์ถ๋ก ์๋ ์ต์ ํ
- llama.cpp์ KV cache ์์ํ(-ctk, -ctv q8_0)๋ฅผ ์ ์ฉํ ๋ฉ๋ชจ๋ฆฌ ์ ์ ์จ 940MB์์ 499MB๋ก ์ ๊ฐ
- Full GPU Offloading(-ngl 99) ๋ฐ 32K Context Window ์ค์ ์ ํตํ ๋๊ท๋ชจ ์ฝ๋ ๋ฒ ์ด์ค ์ฒ๋ฆฌ
- ์์ ๋ณต์ก๋์ ๋ฐ๋ฅธ E4B(Autocomplete)์ 26B/31B(Chat/Refactor) ๋ชจ๋ธ์ ๊ณ์ธต์ ๋ผ์ฐํ ๊ตฌ์กฐ ์ค๊ณ
- Jinja ํ ํ๋ฆฟ ์ ์ฉ์ ํตํ Gemma 4 ์ ์ฉ Tool-calling ์ธํฐํ์ด์ค ํ์คํ
์ค์ฒ ํฌ์ธํธ
- 24GB VRAM ํ๊ฒฝ์์ 26B MoE Q4 ์์ํ ๋ชจ๋ธ ์ฌ์ฉ ๊ถ์ฅ - ๋ฉ๋ชจ๋ฆฌ ๋ถ์กฑ ๋ฐฉ์ง๋ฅผ ์ํด HF ์๋ ๋ค์ด๋ก๋ ๋์ GGUF ํ์ผ ์๋ ๊ด๋ฆฌ ๋ฐ Vision Projector ์ ์ธ - IDE ํตํฉ ์ Tab-complete์ Chat-bot์ ๋ชจ๋ธ์ ๋ถ๋ฆฌํ์ฌ ์๋ต ์๋์ ํ์ง ๋์ ํ๋ณด - ๋๋ฉ์ธ ํนํ ์ฝ๋ ํ์ง ํฅ์์ ์ํด Unsloth ๊ธฐ๋ฐ์ LoRA ํ์ธํ๋ ๊ฒํ