Qwen3.6-35B MoE 모델로 M5 Max에서 Aider Polyglot 62.8% 달성

62.8% on Aider Polyglot from a MacBook Pro. Then the other model we tried scored 4%. Here's what actually happened, with a working cost loop attached.

Christopher Maher2026년 4월 27일18분advanced

AI 요약

Context

Apple Silicon의 Unified Memory 환경에서 대규모 LLM 추론 시 Memory Bandwidth가 전체 처리량의 핵심 병목으로 작용함. 특히 Dense 모델은 파라미터 전체를 읽어야 하므로 대역폭 제한에 따른 Token 생성 속도 저하가 불가피한 구조임.

Technical Solution

MoE(Mixture of Experts) 아키텍처 채택을 통해 토큰당 활성 파라미터를 3B로 제한하여 Memory Bandwidth 부하 감소
LLMKube Metal Agent와 llama-server를 연동하여 Apple Silicon GPU의 Metal 가속 최적화
Unified Memory 128GB를 활용해 Q8_0 양자화 모델(약 36GB)과 KV Cache를 효율적으로 배치
InferCost v0.3.0의 Metal Collector를 도입하여 powermetrics 기반의 실시간 전력 소비량 및 $/MTok 비용 추적
Aider Polyglot 벤치마크의 pass_rate_2 메트릭을 통해 단일 시도 및 테스트 피드백 기반의 2차 시도 성능 검증

Impact

Qwen3.6-35B-A3B Q8 모델의 Aider Polyglot pass_rate_2 62.8% 기록 (Claude Sonnet 4 및 o1-high 상회)
M5 Max의 614 GB/s 대역폭 환경에서 MoE 모델의 추론 속도를 Dense 모델 대비 획기적으로 개선
Prometheus scrape 기반의 Apple Silicon LLM 워크로드 실시간 비용 추적 ($0.18/hr 수준)

Key Takeaway

Edge Device의 추론 성능 최적화는 단순 연산 속도가 아닌 Memory Bandwidth 제약 조건 하에서 활성 파라미터 수를 최소화하는 MoE 구조의 선택이 결정적임.

실천 포인트

- Local LLM 도입 시 하드웨어의 Memory Bandwidth와 모델의 활성 파라미터 크기를 계산하여 이론적 최대 TPS 산출 - 단순 벤치마크 수치보다 Harness(평가 도구)의 일치 여부를 확인하여 모델 성능의 왜곡 가능성 배제 - FinOps 관점에서 Prometheus 기반의 전력 모니터링 체계를 구축하여 실질적인 추론 비용($/MTok) 산정

태그

#MoE #Quantization #Apple-Silicon #FinOps #Memory Bandwidth

원문 읽기