피드로 돌아가기
LLM 아키텍처의 최근 동향: KV 공유, mHC, 그리고 압축 어텐션
GeekNewsGeekNews
AI/ML

LLM 아키텍처의 최근 동향: KV 공유, mHC, 그리고 압축 어텐션

KV 캐시 90% 절감 및 추론 FLOPs 최적화를 위한 LLM 아키텍처 혁신

neo2026년 5월 23일12advanced

Context

장문 컨텍스트 처리 시 KV 캐시 크기와 메모리 트래픽 증가로 인한 추론 비용 상승이 주요 병목으로 작용. 기존 Transformer 구조의 획일적인 어텐션 예산 할당과 선형적 KV 저장 방식의 한계 극복 필요.

Technical Solution

  • Cross-layer Attention 도입을 통한 후반부 레이어의 KV 텐서 재사용 및 캐시 크기 절감
  • Per-Layer Embeddings(PLE) 설계를 통한 메인 연산부 크기 유지 및 저비용 파라미터 확장
  • Layer-wise Attention Budgeting을 통한 레이어별 Query Head 수 차등 할당 및 연산 자원 최적화
  • Compressed Convolutional Attention(CCA) 기반의 압축 잠재 공간 내 직접 어텐션 수행 및 FLOPs 감소
  • Manifold-Constrained Hyper-Connections(mHC) 적용을 통한 안정적인 병렬 잔차 스트림 정보 재분배
  • CSA와 HCA 하이브리드 구조를 통한 시퀀스 차원 압축 및 장문 컨텍스트 캐시 요약

1. 장문 컨텍스트 서비스 설계 시 KV 캐시의 시퀀스 차원 압축(CSA/HCA) 가능성 검토

2. 모든 레이어에 동일한 Attention Head를 할당하는 대신 중요도 기반의 Budgeting 적용 고려

3. 모델 크기 확장 시 Dense 가중치 추가 대신 Lookup 기반의 Per-layer Embedding 구조 검토

4. 깊은 모델의 학습 안정성 확보를 위해 잔차 연결 경로의 매핑 제약 조건 설정 확인

원문 읽기