Hugging Face가 KV Cache Quantization을 도입해 장문 생성 시 메모리 사용량을 유의미하게 절감하면서 모델 정확도 유지

Unlocking Longer Generation with Key-Value Cache Quantization

2024년 5월 16일8분intermediate

AI 요약

Context

언어 모델이 장문 생성을 수행할 때 Key-Value Cache가 메모리 병목이 되고 있습니다. 예를 들어 7B Llama-2 모델에서 10,000 토큰 길이의 컨텍스트를 처리할 경우 KV Cache만으로 약 5GB 메모리가 필요하며, 이는 모델 파라미터 저장에 필요한 메모리의 약 1/3 규모입니다. 제한된 리소스 환경에서 장문 생성을 지원하기 어려운 상황입니다.

Technical Solution

KV Cache를 정수형 저정밀도(int4)로 양자화하여 메모리 공간 감소: KIVI 논문에서 영감을 받아 비대칭 양자화 기법 적용
Key와 Value 모두 토큰 단위(per-token)로 양자화 수행: 저정밀도 형식으로 변환 시마다 재량자화·역양자화 오버헤드 존재
사용자가 정밀도 선택 가능한 유연성 제공: 메모리 효율성과 생성 속도 사이의 트레이드오프를 상황별로 조정
기존 weight quantization 등 다른 최적화 기법과 결합 가능한 설계: 누적적인 메모리 효율성 개선

Impact

int4 양자화 적용 시 모델 정확도를 만족할 수준으로 유지하면서 메모리 사용량을 유의미하게 감소시켰습니다.

Key Takeaway

장문 생성이 필요한 LLM 환경에서는 KV Cache 양자화를 통해 메모리 제약을 완화할 수 있으며, 정밀도 선택 가능성이 다양한 하드웨어 환경(consumer GPU 포함)에 대한 적응성을 높입니다.

실천 포인트

제한된 메모리를 가진 GPU 환경(consumer GPU 포함)에서 LLM 기반 장문 생성 서비스를 운영할 때, KV Cache를 int4 정수형으로 양자화하면 원본 정확도는 유지하면서 5GB 규모의 메모리 절감이 가능해 10,000 토큰 이상의 긴 컨텍스트 처리를 현실적으로 지원할 수 있습니다.

태그

#Memory-Optimization #Transformers #KV Cache Quantization #LLM

원문 읽기