피드로 돌아가기
Hugging Face BlogAI/ML
원문 읽기
Intel과 Hugging Face가 SmoothQuant 양자화 기법으로 LLM을 INT8로 압축해 Xeon CPU에서 실시간 텍스트 생성 달성
Smaller is better: Q8-Chat, an efficient generative AI experience on Xeon
AI 요약
Context
대규모 언어 모델(LLM)은 고성능 GPU가 필요한 복잡한 부동소수점 연산으로 인해 비용이 높고 접근성이 낮다. 기존 양자화 기법은 LLM의 활성화 채널에 나타나는 큰 이상치(outlier) 때문에 모델 정확도를 심각하게 손상시킨다.
Technical Solution
- SmoothQuant 기법 도입: 가중치와 활성화에 공동 수학 변환을 적용해 이상치와 일반값의 비율을 조정
- INT8 정수 양자화 적용: FP16/BF16 부동소수점 모델을 8비트 정수로 변환해 메모리 사용량 감소
- Post-Training Quantization(PTQ) 활용: 추가 학습 없이 기존 사전학습 모델에 직접 적용
- Intel Sapphire Rapids CPU 플랫폼 활용: 32코어 단일 소켓 CPU에서 양자화된 LLM 실행
- 다양한 LLM 모델 적용: OPT 2.7B/6.7B, LLaMA 7B, Alpaca 7B, Vicuna 7B, BloomZ 7.1B, MPT-7B-chat 양자화
Impact
- 모델 크기 2배 감소(16비트 대비)
- OPT 모델: 벤치마크의 대부분이 개선되거나 미미한 영향(3% 이하)
- LLaMA 7B/BloomZ 7.1B: 약 절반의 작업에서 메트릭 개선, 나머지는 3% 이하의 경미한 저하
- 토큰당 생성 시간 단축: Xeon에서 MPT-7B-chat의 배치 크기 1 조건으로 실시간 텍스트 생성 가능
Key Takeaway
SmoothQuant는 LLM을 정확도 손실 최소화하며 압축해 CPU 기반 추론을 실현함으로써, 엔터프라이즈 환경에서 GPU 투자 없이 생성형 AI를 운영할 수 있는 비용 효율적 경로를 제시한다.
실천 포인트
CPU 기반 LLM 서비스를 운영하는 엔지니어라면, SmoothQuant를 통해 기존 사전학습 모델을 INT8로 양자화하고 Xeon 플랫폼에 배포하면 2배 크기 감소와 함께 모델 정확도를 실질적으로 유지할 수 있다. Hugging Face Optimum Intel 라이브러리(Intel Neural Compressor 통합 예정)를 활용하면 몇 줄의 코드로 이를 구현할 수 있다.