피드로 돌아가기
Dev.toAI/ML
원문 읽기
KV Cache 9배 압축을 통한 1M Token Context 실용화
DeepSeek V4: Million-Token Context That Actually Works
AI 요약
Context
표준 Attention 기반 1M 토큰 구현 시 시퀀스당 83.9 GiB의 KV Cache가 요구되는 메모리 병목 발생. 이는 GPU 메모리 고갈을 초래하여 실제 배포가 불가능한 수준의 리소스 부하를 유발함.
Technical Solution
- Shared Key-Value Vector 도입을 통한 레이어 간 중복 데이터 제거 및 메모리 효율 최적화
- Compressed KV Streams 및 Sparse Attention 적용으로 전체 KV Cache 크기를 9배 수준으로 압축
- Local Coherence 유지를 위한 128 토큰 규모의 Sliding Window Attention 구조 설계
- FP4 Index Cache와 FP8 Attention 혼용을 통한 추가적인 메모리 점유율 2배 감소 달성
- Learned Hash Routing 기반 MoE 구조를 통해 1.6T 파라미터 중 49B만 활성화하여 FLOPs 비용 절감
- Huawei Ascend 및 NVIDIA Blackwell 등 다양한 하드웨어 가속기 호환성을 고려한 포터블 아키텍처 설계
실천 포인트
1. 대규모 컨텍스트 처리 시 KV Cache 메모리 요구량을 정량적으로 계산하여 하드웨어 제약 사항 확인
2. 정밀도 최적화(FP8, FP4)를 통한 메모리 풋프린트 감소 및 추론 처리량 개선 검토
3. MoE 기반의 Active Parameter 제어를 통해 모델 규모와 추론 비용 간의 Trade-off 최적화