피드로 돌아가기
Dev.toAI/ML
원문 읽기
KV Caching과 MMHA 구조를 통한 Decoder-only LLM 추론 최적화
LLM Study Diary #1: Transformer
AI 요약
Context
LLM의 autoregressive generation 과정에서 발생하는 중복 연산 문제 분석. 매 토큰 생성 시마다 이전 모든 토큰의 Key와 Value를 재계산함에 따른 연산 낭비와 추론 지연 시간 증가가 주요 병목 지점으로 식별됨.
Technical Solution
- Masked Multi-Head Attention(MMHA) 도입을 통한 미래 토큰 참조 차단 및 Causal Masking 구현
- Prefill Phase에서 프롬프트 전체의 K/V를 병렬 계산하여 메모리에 저장하는 KV Caching 전략 채택
- Decode Phase에서 최신 토큰의 Q만을 계산하고 저장된 K/V를 재사용함으로써 연산 복잡도 감소
- FFN 내 4x Expansion 하이퍼파라미터 설정을 통한 고차원 특징 추출 및 비선형성 확보
- Q(Query), K(Key), V(Value)의 역할 분리를 통한 가중치 합산 기반의 정보 추출 메커니즘 설계
실천 포인트
- 추론 시스템 설계 시 Prefill과 Decode 단계의 서로 다른 Latency 특성을 반영한 배치 전략 수립 - KV Cache 메모리 사용량 최적화를 위해 모델의 Embedding Dimension 및 Head 수의 상관관계 분석 - 가중치(Weights)와 하이퍼파라미터(Hyperparameters)의 명확한 구분을 통한 모델 튜닝 범위 설정