FP4 양자화 및 하이브리드 Attention 기반 추론 비용 극대화

DeepSeek's new models are so efficient they'll run on a toaster ... by which we mean Huawei's NPUs

Tobias Mann2026년 4월 24일5분advanced

AI 요약

Context

LLM 규모 확장에 따른 KV Cache 메모리 급증과 추론 비용 상승 문제 발생. 기존 Hopper GPU 기반 최적화 모델의 인프라 의존성 및 하드웨어 제약 극복 필요.

Technical Solution

Compressed Sparse Attention과 Heavy Compressed Attention을 결합한 Hybrid Attention 메커니즘 도입으로 KV Cache 메모리 점유율 최적화
MoE Expert Weights에 Quantization-aware Training을 적용한 FP8 및 FP4 혼합 정밀도 데이터 타입 채택을 통한 메모리 풋프린트 최소화
학습 수렴 속도 향상 및 학습 안정성 확보를 위한 자체 개발 Optimizer 'Muon' 도입
Nvidia GPU뿐만 아니라 Huawei Ascend NPU에서도 작동하는 Fine-grained EP(Expert Parallel) 스킴 검증으로 하드웨어 유연성 확보
추론 비용 절감을 위해 284B 파라미터의 Flash MoE 모델과 1.6T 파라미터의 Pro 모델로 이원화한 서빙 전략 수립

실천 포인트

- 메모리 병목 해결을 위해 KV Cache 압축 기술 및 하이브리드 Attention 적용 검토 - 성능 손실을 감수하더라도 인프라 비용 절감이 우선일 때 Quantization-aware Training 기반 저정밀도(FP4) 도입 고려 - 특정 벤더 하드웨어 종속성을 탈피하기 위해 Expert Parallel 스킴의 범용적 검증 수행

태그

#MoE #Quantization #KV Cache #FP4 #Hybrid-Attention

원문 읽기