피드로 돌아가기
GeekNewsAI/ML
원문 읽기
LLM 아키텍처의 최근 동향: KV 공유, mHC, 그리고 압축 어텐션
KV 캐시 90% 절감 및 추론 FLOPs 최적화를 위한 LLM 아키텍처 혁신
AI 요약
Context
장문 컨텍스트 처리 시 KV 캐시 크기와 메모리 트래픽 증가로 인한 추론 비용 상승이 주요 병목으로 작용. 기존 Transformer 구조의 획일적인 어텐션 예산 할당과 선형적 KV 저장 방식의 한계 극복 필요.
Technical Solution
- Cross-layer Attention 도입을 통한 후반부 레이어의 KV 텐서 재사용 및 캐시 크기 절감
- Per-Layer Embeddings(PLE) 설계를 통한 메인 연산부 크기 유지 및 저비용 파라미터 확장
- Layer-wise Attention Budgeting을 통한 레이어별 Query Head 수 차등 할당 및 연산 자원 최적화
- Compressed Convolutional Attention(CCA) 기반의 압축 잠재 공간 내 직접 어텐션 수행 및 FLOPs 감소
- Manifold-Constrained Hyper-Connections(mHC) 적용을 통한 안정적인 병렬 잔차 스트림 정보 재분배
- CSA와 HCA 하이브리드 구조를 통한 시퀀스 차원 압축 및 장문 컨텍스트 캐시 요약
실천 포인트
1. 장문 컨텍스트 서비스 설계 시 KV 캐시의 시퀀스 차원 압축(CSA/HCA) 가능성 검토
2. 모든 레이어에 동일한 Attention Head를 할당하는 대신 중요도 기반의 Budgeting 적용 고려
3. 모델 크기 확장 시 Dense 가중치 추가 대신 Lookup 기반의 Per-layer Embedding 구조 검토
4. 깊은 모델의 학습 안정성 확보를 위해 잔차 연결 경로의 매핑 제약 조건 설정 확인