피드로 돌아가기
GeekNewsAI/ML
원문 읽기
Ollama, 이제 애플 실리콘에서 MLX 기반으로 구동
Apple Silicon에서 Ollama가 MLX 네이티브 전환으로 메모리 효율 개선과 추론 속도 향상을 실현했다
AI 요약
Context
기존 Ollama는 llama.cpp를 셸로 호출하는 구조여서 Mac에서 메모리 효율과 추론 속도에 한계가 있었다. Apple Silicon의 MLX 프레임워크는 GPU 가속과 SSD KV 캐싱을 지원하지만, 로컬 LLM은 중앙화 데이터센터 대비 100배 효율이 낮다는 구조적 문제가 있다. 사용자는 5년간 디지털 저널링을 하며 온디바이스 LLM 흐름을 예상했고, M4 MBP에서 llama.cpp 기반 실험을 진행했다.
Technical Solution
- Ollama → MLX 네이티브 엔진 전환으로 메모리 효율 개선
- omlx.ai → SSD KV 캐싱 기능으로 세션 복원 시 프리필 생략 가능
- Qwen 3.5 4B + 27B 조합 → graphRAG 앱에서 소규모 태스크와 질문 응답 분리 처리
- M2 Max 96GB → qwen 70b 4-bit 실행으로 일상 작업 안정성 검증
- SSD 오프로딩 → SOTA 모델 소비자용 PC에서 실행 가능 확인
Impact
MLX 사용 시 llama.cpp 대비 추론 속도가 개선되고, RAM 사용량이 약간 증가하지만 속도 향상이 더 가치 있다. M5 Max의 빠른 프리필 속도로 생성에 할당 가능한 시간이 증가했다.
Key Takeaway
복잡한 요청은 클라우드로 처리하고 간단한 요청은 로컬 모델로 처리하는 하이브리드 접근이 로컬 LLM의 현실적 활용 방식이다.
실천 포인트
Mac Apple Silicon 환경에서 로컬 LLM 실행 시 MLX 기반 Ollama로 전환하면 RAM 사용량이 증가하더라도 추론 속도가 개선되어 16GB RAM만으로도 Claude Code 수준의 작업이 가능해진다