LLM 아키텍처의 최근 동향: KV 공유, mHC, 그리고 압축 어텐션

KV 캐시 90% 절감 및 추론 FLOPs 최적화를 위한 LLM 아키텍처 혁신

neo2026년 5월 23일12분advanced

AI 요약

Context

장문 컨텍스트 처리 시 KV 캐시 크기와 메모리 트래픽 증가로 인한 추론 비용 상승이 주요 병목으로 작용. 기존 Transformer 구조의 획일적인 어텐션 예산 할당과 선형적 KV 저장 방식의 한계 극복 필요.

실천 포인트

1. 장문 컨텍스트 서비스 설계 시 KV 캐시의 시퀀스 차원 압축(CSA/HCA) 가능성 검토

2. 모든 레이어에 동일한 Attention Head를 할당하는 대신 중요도 기반의 Budgeting 적용 고려

3. 모델 크기 확장 시 Dense 가중치 추가 대신 Lookup 기반의 Per-layer Embedding 구조 검토

4. 깊은 모델의 학습 안정성 확보를 위해 잔차 연결 경로의 매핑 제약 조건 설정 확인

태그