#quantization 아티클 모음

Dev.to

KV Caching 및 GQA 도입을 통한 LLM 추론 병목 해결 및 VRAM 최적화

How to Optimize LLM Inference with KV Caching

AI/MLintermediate8 분 소요1시간 전

Dev.to

MoE 및 Dual RoPE 기반 256K 컨텍스트 구현 및 추론 효율 극대화

Gemma 4: The Next Frontier in Open-Source AI for Developers

AI/MLadvanced37 분 소요2시간 전

Dev.to

4GB RAM 저사양 기기 내 Gemma 4 e2b 기반 Local AI 진단 시스템 구축

Healthcare AI that runs where there's no internet — Gemma 4 on a $150 phone

AI/MLintermediate31 분 소요5시간 전

Dev.to

Qwen3-VL 기반 AI 검증 도입을 통한 드라이버 승인 인건비 75% 절감

How AI Reduced Manual Driver Verification by 75% — Operations Case Study. Part 2

AI/MLintermediate4 분 소요14시간 전

Dev.to

LOD 전략과 Int8 양자화로 1.5조 픽셀 전지구 유사도 분석 구현

A search engine for places that look alike

Infrastructureadvanced15 분 소요23시간 전

Dev.to

WebGPU 기반 WebLLM 도입으로 서버리스 개인정보 보호 의료 데이터 파싱 구현

Private & Powerful: Parsing Sensitive Medical Records Locally with WebLLM and WebGPU

AI/MLintermediate13 분 소요1일 전

Dev.to

Gemma 4 Native Vision 기반의 8초 내 화이트보드 구조화 분석

WhiteboardIQ: From Blurry Whiteboard Photo to Structured Action Items with Gemma 4 E4B

AI/MLintermediate10 분 소요1일 전

Dev.to

RTX 5080 VRAM 최적화를 통한 Gemma 4 로컬 추론 효율 극대화

Practical Gemma 4 Benchmarking with LM Studio

AI/MLintermediate136 분 소요1일 전

GeekNews

Rapid-MLX - Apple Silicon 전용 초고속 로컬 AI 엔진

MLX 기반 Metal 커널 최적화로 Ollama 대비 최대 4.2배 추론 가속

AI/MLadvanced5 분 소요1일 전

Dev.to

Optane PMem 기반 768GB 메모리 확장을 통한 1T 파라미터 LLM 로컬 구동

Discontinued Optane Local LLM Powers a Kimi K2.5 Desktop Run

AI/MLadvanced11 분 소요2일 전

GeekNews

M4 24GB 메모리에서 로컬 모델 실행하기

M4 24GB 환경에서 Qwen 3.5-9B Q4 기반 40tps 로컬 AI 파이프라인 구축

AI/MLintermediate8 분 소요2일 전

Dev.to

Gemma 4 기반 On-device AI 구현으로 API 비용 0원 및 데이터 프라이버시 확보

Building a Zero-Cost AI Feature in Flutter with Gemma 4 + Firebase

AI/MLintermediate16 분 소요2일 전

Hacker News

M4 24GB 환경에서 Qwen 3.5 9B 모델로 40 TPS 및 128K Context 구현

Running local models on an M4 with 24GB memory

AI/MLintermediate19 분 소요3일 전

Dev.to

DeepSeek-V4-Flash 524k Context에서 85 tok/s 달성 및 CUDA-first 런타임 구현

DeepSeek-V4-Flash Benchmarks, FlashRT CUDA Runtime, & V100 LLM Performance

AI/MLadvanced11 분 소요3일 전

Dev.to

Consumer HW 기반 Local LLM: 14B 모델 80 TPS 달성 및 프로덕션 수준 도달

Local LLMs in 2026: What Actually Works on Consumer Hardware

AI/MLintermediate19 분 소요3일 전

GeekNews

antirez/ds4 - Metal용 DeepSeek V4 Flash 로컬 추론 엔진

2-bit 양자화 및 KV 디스크 캐싱을 통한 로컬 DS4 Flash 추론 최적화

AI/MLadvanced11 분 소요5일 전

Dev.to

Quantization 기반 RAM 1.5GB 최적화로 Mobile Edge AI 구현

The Mobile Architect: Bridging the AI Gap Without a PC

AI/MLintermediate5 분 소요5일 전

Dev.to

llama.cpp의 310B Sparse MoE 지원 및 Qwen3 기반 Local Agent 생태계 확장

llama.cpp supports Sparse MoE, new Qwen3.6 GGUF, & WebWorld for local agents

AI/MLintermediate8 분 소요6일 전

Dev.to

Gemma 4 도입을 통한 CV 파이프라인 단순화 및 하드웨어 비용 90% 절감

I Replaced My $500 GPU with a $75 Raspberry Pi: How Gemma 4 Makes Computer Vision 10x Cheaper

AI/MLintermediate39 분 소요6일 전

Dev.to

Gemma 4 26B MoE 기반으로 API 비용 0원 및 프라이버시 확보한 로컬 AI 코딩 환경 구축

Building a Fully Offline AI Coding Assistant with Gemma 4 — No Cloud Required 🤖

AI/MLintermediate22 분 소요6일 전