피드로 돌아가기
Dev.toAI/ML
원문 읽기
APU 공유 메모리 대역폭 한계로 인한 Dual-LLM 추론 효율 저하 분석
Why DDR5 Bandwidth Kills Dual-LLM Inference on APUs (Benchmarks Inside)
AI 요약
Context
AMD Ryzen 9 7940HS APU 환경에서 단일 모델 대비 다중 모델(Multi-model Agent) 구성 시의 성능 변화 분석. CPU와 iGPU가 동일한 DDR5 메모리 컨트롤러를 공유하는 Unified Memory Architecture의 구조적 한계로 인해 메모리 대역폭 병목 현상이 발생함.
Technical Solution
- Mixture of Experts(MoE) 구조의 qwen3.6:35b를 활용하여 36B 파라미터의 지식 수준을 유지하면서 토큰당 연산 비용을 4-5B 수준으로 최적화
- num_gpu: 0 파라미터를 통한 CPU 전용 추론 강제 할당으로 iGPU와 CPU 간의 리소스 간섭 영향도 정밀 측정
- Discrete GPU의 GDDR6 전용 버스와 달리 APU의 단일 DDR5 버스(80 GB/s)에서 발생하는 Memory-bound 특성 분석
- KV Cache 증가에 따른 메모리 점유율 상승이 전체 시스템 대역폭 포화에 미치는 인과관계 규명
- Ollama의 Content-addressing 기반 Blob 관리 구조를 통한 저장 공간 중복 제거 확인
실천 포인트
- APU 환경에서는 Multi-model Agent 대신 단일 MoE 모델 기반의 Context Window 확장을 우선 검토할 것 - Shared Memory 시스템 설계 시 CPU/GPU 간의 대역폭 경합(Contention) 가능성을 상정하여 Resource Partitioning 계획 수립 - Ollama 사용 시 Orphan Blob 수동 제거를 통해 스토리지 낭비 방지 및 /sys/kernel/debug 경로를 통한 실제 GTT 할당량 모니터링