피드로 돌아가기
Hacker NewsAI/ML
원문 읽기
KV cache 90% 절감 및 1M 토큰 컨텍스트 구현한 MoE 아키텍처
DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence
AI 요약
Context
기존 LLM 아키텍처의 긴 컨텍스트 처리 시 발생하는 막대한 KV cache 메모리 점유 및 추론 연산 비용 증가 문제 분석.
Technical Solution
- CSA(Compressed Sparse Attention)와 HCA(Heavily Compressed Attention)를 결합한 Hybrid Attention Architecture 설계로 긴 컨텍스트 효율성 극대화
- Manifold-Constrained Hyper-Connections(mHC) 도입을 통한 레이어 간 신호 전파 안정성 강화 및 모델 표현력 유지
- Muon Optimizer 채택을 통한 학습 수렴 속도 향상 및 트레이닝 안정성 확보
- 도메인 특화 전문가를 개별 양성한 후 on-policy distillation으로 통합하는 2단계 Post-training 파이프라인 구축
- FP4(Expert)와 FP8(Other) 정밀도를 혼합 적용한 Mixed Precision 전략으로 메모리 효율 최적화
Impact
- DeepSeek-V3.2 대비 1M 토큰 컨텍스트 설정에서 단일 토큰 추론 FLOPs 27% 수준으로 절감
- 기존 모델 대비 KV cache 사용량을 10% 수준으로 대폭 감소
실천 포인트
- 긴 컨텍스트 처리 필요 시 Full Attention 대신 Sparse/Compressed Attention 혼합 구조 검토 - 대규모 파라미터 모델의 안정적 신호 전파를 위한 Residual Connection 확장 기법 적용 고려 - 모델 크기에 따른 추론 비용 최적화를 위해 레이어/파라미터별 Mixed Precision 전략 수립