APU 공유 메모리 대역폭 한계로 인한 Dual-LLM 추론 효율 저하 분석

Why DDR5 Bandwidth Kills Dual-LLM Inference on APUs (Benchmarks Inside)

Josh Green2026년 5월 28일7분advanced

AI 요약

Context

AMD Ryzen 9 7940HS APU 환경에서 단일 모델 대비 다중 모델(Multi-model Agent) 구성 시의 성능 변화 분석. CPU와 iGPU가 동일한 DDR5 메모리 컨트롤러를 공유하는 Unified Memory Architecture의 구조적 한계로 인해 메모리 대역폭 병목 현상이 발생함.

Technical Solution

Mixture of Experts(MoE) 구조의 qwen3.6:35b를 활용하여 36B 파라미터의 지식 수준을 유지하면서 토큰당 연산 비용을 4-5B 수준으로 최적화
num_gpu: 0 파라미터를 통한 CPU 전용 추론 강제 할당으로 iGPU와 CPU 간의 리소스 간섭 영향도 정밀 측정
Discrete GPU의 GDDR6 전용 버스와 달리 APU의 단일 DDR5 버스(80 GB/s)에서 발생하는 Memory-bound 특성 분석
KV Cache 증가에 따른 메모리 점유율 상승이 전체 시스템 대역폭 포화에 미치는 인과관계 규명
Ollama의 Content-addressing 기반 Blob 관리 구조를 통한 저장 공간 중복 제거 확인

실천 포인트

- APU 환경에서는 Multi-model Agent 대신 단일 MoE 모델 기반의 Context Window 확장을 우선 검토할 것 - Shared Memory 시스템 설계 시 CPU/GPU 간의 대역폭 경합(Contention) 가능성을 상정하여 Resource Partitioning 계획 수립 - Ollama 사용 시 Orphan Blob 수동 제거를 통해 스토리지 낭비 방지 및 /sys/kernel/debug 경로를 통한 실제 GTT 할당량 모니터링

태그

#Unified Memory Architecture #MoE #KV Cache #APU #Memory Bandwidth

원문 읽기