피드로 돌아가기
62.8% on Aider Polyglot from a MacBook Pro. Then the other model we tried scored 4%. Here's what actually happened, with a working cost loop attached.
Dev.toDev.to
AI/ML

Qwen3.6-35B MoE 모델로 M5 Max에서 Aider Polyglot 62.8% 달성

62.8% on Aider Polyglot from a MacBook Pro. Then the other model we tried scored 4%. Here's what actually happened, with a working cost loop attached.

Christopher Maher2026년 4월 27일18advanced

Context

Apple Silicon의 Unified Memory 환경에서 대규모 LLM 추론 시 Memory Bandwidth가 전체 처리량의 핵심 병목으로 작용함. 특히 Dense 모델은 파라미터 전체를 읽어야 하므로 대역폭 제한에 따른 Token 생성 속도 저하가 불가피한 구조임.

Technical Solution

  • MoE(Mixture of Experts) 아키텍처 채택을 통해 토큰당 활성 파라미터를 3B로 제한하여 Memory Bandwidth 부하 감소
  • LLMKube Metal Agent와 llama-server를 연동하여 Apple Silicon GPU의 Metal 가속 최적화
  • Unified Memory 128GB를 활용해 Q8_0 양자화 모델(약 36GB)과 KV Cache를 효율적으로 배치
  • InferCost v0.3.0의 Metal Collector를 도입하여 powermetrics 기반의 실시간 전력 소비량 및 $/MTok 비용 추적
  • Aider Polyglot 벤치마크의 pass_rate_2 메트릭을 통해 단일 시도 및 테스트 피드백 기반의 2차 시도 성능 검증

Impact

  • Qwen3.6-35B-A3B Q8 모델의 Aider Polyglot pass_rate_2 62.8% 기록 (Claude Sonnet 4 및 o1-high 상회)
  • M5 Max의 614 GB/s 대역폭 환경에서 MoE 모델의 추론 속도를 Dense 모델 대비 획기적으로 개선
  • Prometheus scrape 기반의 Apple Silicon LLM 워크로드 실시간 비용 추적 ($0.18/hr 수준)

Key Takeaway

Edge Device의 추론 성능 최적화는 단순 연산 속도가 아닌 Memory Bandwidth 제약 조건 하에서 활성 파라미터 수를 최소화하는 MoE 구조의 선택이 결정적임.


- Local LLM 도입 시 하드웨어의 Memory Bandwidth와 모델의 활성 파라미터 크기를 계산하여 이론적 최대 TPS 산출 - 단순 벤치마크 수치보다 Harness(평가 도구)의 일치 여부를 확인하여 모델 성능의 왜곡 가능성 배제 - FinOps 관점에서 Prometheus 기반의 전력 모니터링 체계를 구축하여 실질적인 추론 비용($/MTok) 산정

원문 읽기