피드로 돌아가기
Hacker NewsHacker News
AI/ML

Mac mini M-시리즈에서 Gemma 4 26B 최적화 구동 가이드

April 2026 TLDR Setup for Ollama and Gemma 4 26B on a Mac mini

2026년 4월 3일3intermediate

Context

Apple Silicon Mac mini 환경의 로컬 LLM 구동 환경. 제한된 Unified Memory 내 모델 상주 및 추론 속도 확보 필요.

Technical Solution

  • [Ollama] → Homebrew Cask 기반 설치 및 MLX Backend 자동 적용 구조
  • [Gemma 4 26B] → 17GB 모델 다운로드 및 GPU 가속 기반 추론 방식
  • [Launch Agent] → plist 설정을 통한 5분 주기 모델 Preload 및 메모리 Warm-up 전략
  • [OLLAMA_KEEP_ALIVE] → 환경 변수 "-1" 설정을 통한 모델 무기한 상주 설계
  • [Caching] → 공유 시스템 프롬프트 재사용 및 지능적 체크포인트 기반의 메모리 최적화

Impact

  • 모델 크기: 17GB
  • 로드 후 메모리 점유: ~20GB
  • GPU 가속 비중: 86%
  • CPU 점유 비중: 14%

Key Takeaway

로컬 추론 환경에서 모델 스왑 비용을 줄이기 위해 OS 레벨의 자동 실행 에이전트와 메모리 유지 정책을 결합한 상시 대기 구조가 효율적임.


24GB Unified Memory 장비에서 20GB 점유 모델 구동 시 시스템 가용 메모리가 4GB 미만이므로 고부하 앱 종료 후 실행할 것

원문 읽기