Intel이 Optimum Intel을 통해 StarCoder 15B 모델에 INT8/INT4 양자화와 Speculative Decoding을 적용해 Xeon에서 7배 이상의 추론 가속 달성

Accelerate StarCoder with 🤗 Optimum Intel on Xeon: Q8/Q4 and Speculative Decoding

2024년 1월 30일9분intermediate

AI 요약

Context

LLM 추론 시 자동회귀 방식의 토큰 생성으로 인해 매 토큰마다 전체 모델을 DRAM에서 CPU로 로드해야 하며, 오프칩 메모리와 CPU 간 대역폭이 토큰 생성의 주요 병목이 된다.

Technical Solution

INT8 정적 양자화 도입: SmoothQuant 알고리즘을 활용해 활성화 함수의 이상치를 스무딩하고 양자화 레벨 활용을 최적화하여 TTFT 2.19배, TPOT 2.20배 가속
INT4 가중치 전용 양자화 적용: RTN(Round-To-Nearest) 방식으로 모델 크기를 추가 감소시켜 TPOT 3.35배 가속 달성
Speculative Decoding 통합: 초안 모델이 생성한 K개 토큰을 대상 모델이 병렬 처리하도록 변경하여 메모리 대역폭에서 컴퓨트 병목으로 전환
INT8 양자화 대상 모델 적용: Speculative Decoding에서는 INT4의 역양자화 오버헤드로 인해 INT8 대상 모델이 INT4보다 높은 성능 달성
🤗 Optimum Intel 라이브러리 활용: IPEXModelForCausalLM 클래스로 AutoModelForCausalLM 대체하여 최적화된 모델 로드 및 추론 실행

Impact

TTFT: INT8 양자화 단독 2.19배, INT8 + Speculative Decoding 1.95배
TPOT: INT8 양자화 단독 2.20배, INT4 양자화 3.35배, INT8 + Speculative Decoding 7.30배
정확도 유지: INT8 양자화 시 HumanEval pass@1 기준 33.54% → 33.96%(오히려 미미한 상향), INT4는 32.80%
통합 최적화(INT8 + Speculative Decoding): 기준 대비 7배 이상의 추론 가속

Key Takeaway

LLM 추론의 메모리 대역폭 병목을 양자화로 해결하되, 생성 구조에 따라 적절한 양자화 정밀도를 선택해야 한다: 순차 처리(TPOT 중심)에서는 INT4 가중치 양자화, Speculative Decoding 같은 병렬 처리(컴퓨트 중심) 환경에서는 역양자화 오버헤드가 작은 INT8이 더 효과적이다.

실천 포인트

CPU 기반 LLM 추론 서비스에서 Intel Xeon 활용 시, Optimum Intel의 IPEXModelForCausalLM과 SmoothQuant INT8 양자화를 기본으로 적용하면 2배 이상의 성능 향상을 얻을 수 있으며, Speculative Decoding 같은 병렬 토큰 처리 기법을 추가하면 7배 이상의 가속을 달성할 수 있다.

태그

#Intel Xeon #LLM Optimization #Quantization #StarCoder #Speculative Decoding

원문 읽기