Ollama 0.19 MLX 전환으로 Mac 토큰 생성 속도 2배 향상

Ollama Just Got Stupid Fast on Mac and Nobody Is Talking About What This Actually Means

Bejie Paulo Aclao2026년 4월 1일5분intermediate

AI 요약

Context

Ollama 0.19 버전에서 Mac 백엔드를 Apple MLX 프레임워크 기반으로 전면 재건함. 기존 llama.cpp 기반 대비 속도 향상에 주목할 필요가 있음.

Technical Solution

Apple MLX: Apple Silicon의 unified memory architecture를 활용하여 CPU와 GPU 간 메모리 공유로 데이터 복사 오버헤드 제거함
속도 성능: prefill 1,851 tokens/sec, decode 134 tokens/sec 달성함
M5 칩 지원: GPU Neural Accelerators 추가로 M5 Pro/Max에서 추가 성능 이점 제공함
NVFP4 양자화: NVIDIA 4-bit floating point 형식으로 클라우드 추론과 동일한 양자화 형식 지원함
캐시 최적화: 대화 간 캐시 재사용 및 프롬프트 스마트 포인트 스냅샷으로 에이전트 워크플로우 개선함

Impact

토큰 생성 속도가 이전 버전 대비 약 2배 향상됨. 첫 토큰 응답 시간이 1초 미만으로 감소하여 로컬 코딩 에이전트의 실시간성이 확보됨.

Key Takeaway

Apple Silicon의 하드웨어 특성을 최대한 활용하는 소프트웨어 최적화가 로컬 AI 추론의 가능성을 크게 확장함.

Practical Takeaway

M-Series MacBook에서 Ollama 0.19 이상 사용 시 32GB 이상 unified memory 환경에서 API 키 없이 코딩 에이전트 스택 전체를 로컬에서 운영할 수 있음. ollama run qwen3.5:35b-a3b-coding-nvfp4 명령으로 클라우드 추론과 동일한 양자화 형식의 프로덕션급 성능을 확보할 수 있음.

실천 포인트

M-Series MacBook에서 Ollama

0.19 이상 사용 시 32GB 이상 unified memory 환경에서 API 키 없이 코딩 에이전트 스택 전체를 로컬에서 운영할 수 있음. `ollama run qwen

3.5:35b-a3b-coding-nvfp4` 명령으로 클라우드 추론과 동일한 양자화 형식의 프로덕션급 성능을 확보할 수 있음.

태그

#Ollama #Apple-Silicon #nvfp4 #MLX #Local AI Inference

원문 읽기