피드로 돌아가기
Hacker NewsAI/ML
원문 읽기
Mac mini M-시리즈에서 Gemma 4 26B 최적화 구동 가이드
April 2026 TLDR Setup for Ollama and Gemma 4 26B on a Mac mini
AI 요약
Context
Apple Silicon Mac mini 환경의 로컬 LLM 구동 환경. 제한된 Unified Memory 내 모델 상주 및 추론 속도 확보 필요.
Technical Solution
- [Ollama] → Homebrew Cask 기반 설치 및 MLX Backend 자동 적용 구조
- [Gemma 4 26B] → 17GB 모델 다운로드 및 GPU 가속 기반 추론 방식
- [Launch Agent] → plist 설정을 통한 5분 주기 모델 Preload 및 메모리 Warm-up 전략
- [OLLAMA_KEEP_ALIVE] → 환경 변수 "-1" 설정을 통한 모델 무기한 상주 설계
- [Caching] → 공유 시스템 프롬프트 재사용 및 지능적 체크포인트 기반의 메모리 최적화
Impact
- 모델 크기: 17GB
- 로드 후 메모리 점유: ~20GB
- GPU 가속 비중: 86%
- CPU 점유 비중: 14%
Key Takeaway
로컬 추론 환경에서 모델 스왑 비용을 줄이기 위해 OS 레벨의 자동 실행 에이전트와 메모리 유지 정책을 결합한 상시 대기 구조가 효율적임.
실천 포인트
24GB Unified Memory 장비에서 20GB 점유 모델 구동 시 시스템 가용 메모리가 4GB 미만이므로 고부하 앱 종료 후 실행할 것