AMD Strix Halo 기반 MoE 추론 460 t/s 달성 및 Speculative Decoding 함정 분석

Breaking the MoE Speculative Trap: 460 t/s on AMD Strix Halo

Agustin Sacco2026년 4월 27일3분advanced

AI 요약

Context

MoE 아키텍처의 낮은 활성 파라미터 수로 인한 전성비 이점에도 불구하고, 기존 Speculative Decoding 적용 시 오히려 성능이 저하되는 병목 현상 발생. Draft 모델의 토큰 검증 과정에서 MoE의 특성상 다수의 Expert 가중치를 로드해야 하는 Memory Bandwidth 부하가 증가하는 구조적 한계 직면.

Technical Solution

Speculative Decoding 제거를 통한 Expert Loading Tax 제거 및 순수 Sequential Decoding 전환
--parallel 1 설정을 통한 KV slot 격리로 내부 관리 오버헤드 최소화
Unsloth Dynamic UD-Q4_K_XL 양자화 적용으로 지능 수준 유지와 대역폭 효율 최적화
Key/Value 모두 Q8_0 Asymmetric KV Cache를 구성하여 128GB Unified Memory 자원 활용 및 추론 정확도 확보
ROCm 7.2.2 기반 HSA_OVERRIDE_GFX_VERSION 및 ROCBLAS_USE_HIPBLASLT 플래그 설정을 통한 Strix Halo 전용 커널 및 MoE Routing 최적화

Impact

Prompt Processing 속도 최대 466 t/s 달성
Token Generation 속도 17.7 t/s(Baseline) 대비 약 2.4배 향상된 43.1 t/s 기록
Speculative Decoding 적용 시 Baseline 대비 최대 60% 성능 저하 확인

Key Takeaway

Sparse MoE 모델에서는 검증 단계의 파라미터 로드 비용이 Draft 모델의 생성 이득을 상회하므로, 단순한 추론 가속 기법보다 하드웨어 특성에 맞는 Raw Bandwidth 최적화가 우선되어야 함.

실천 포인트

- MoE 모델 도입 시 Speculative Decoding의 실질적 Gain 여부를 반드시 벤치마크할 것 - Unified Memory 아키텍처에서는 KV Cache 양자화 전략을 통해 메모리 대역폭 병목을 관리할 것 - 가속기 전용 커널 플래그(ROCm 등) 설정을 통해 하드웨어 네이티브 최적화를 적용할 것

태그

#MoE #Unified Memory #Quantization #Speculative Decoding #Memory Bandwidth

원문 읽기