피드로 돌아가기
Breaking the MoE Speculative Trap: 460 t/s on AMD Strix Halo
Dev.toDev.to
AI/ML

AMD Strix Halo 기반 MoE 추론 460 t/s 달성 및 Speculative Decoding 함정 분석

Breaking the MoE Speculative Trap: 460 t/s on AMD Strix Halo

Agustin Sacco2026년 4월 27일3advanced

Context

MoE 아키텍처의 낮은 활성 파라미터 수로 인한 전성비 이점에도 불구하고, 기존 Speculative Decoding 적용 시 오히려 성능이 저하되는 병목 현상 발생. Draft 모델의 토큰 검증 과정에서 MoE의 특성상 다수의 Expert 가중치를 로드해야 하는 Memory Bandwidth 부하가 증가하는 구조적 한계 직면.

Technical Solution

  • Speculative Decoding 제거를 통한 Expert Loading Tax 제거 및 순수 Sequential Decoding 전환
  • --parallel 1 설정을 통한 KV slot 격리로 내부 관리 오버헤드 최소화
  • Unsloth Dynamic UD-Q4_K_XL 양자화 적용으로 지능 수준 유지와 대역폭 효율 최적화
  • Key/Value 모두 Q8_0 Asymmetric KV Cache를 구성하여 128GB Unified Memory 자원 활용 및 추론 정확도 확보
  • ROCm 7.2.2 기반 HSA_OVERRIDE_GFX_VERSION 및 ROCBLAS_USE_HIPBLASLT 플래그 설정을 통한 Strix Halo 전용 커널 및 MoE Routing 최적화

Impact

  • Prompt Processing 속도 최대 466 t/s 달성
  • Token Generation 속도 17.7 t/s(Baseline) 대비 약 2.4배 향상된 43.1 t/s 기록
  • Speculative Decoding 적용 시 Baseline 대비 최대 60% 성능 저하 확인

Key Takeaway

Sparse MoE 모델에서는 검증 단계의 파라미터 로드 비용이 Draft 모델의 생성 이득을 상회하므로, 단순한 추론 가속 기법보다 하드웨어 특성에 맞는 Raw Bandwidth 최적화가 우선되어야 함.


- MoE 모델 도입 시 Speculative Decoding의 실질적 Gain 여부를 반드시 벤치마크할 것 - Unified Memory 아키텍처에서는 KV Cache 양자화 전략을 통해 메모리 대역폭 병목을 관리할 것 - 가속기 전용 커널 플래그(ROCm 등) 설정을 통해 하드웨어 네이티브 최적화를 적용할 것

원문 읽기