GeekNewsLLM 아키텍처의 최근 동향: KV 공유, mHC, 그리고 압축 어텐션KV 캐시 90% 절감 및 추론 FLOPs 최적화를 위한 LLM 아키텍처 혁신AI/MLadvanced15 분 소요3일 전