피드로 돌아가기
Smaller is better: Q8-Chat, an efficient generative AI experience on Xeon
Hugging Face BlogHugging Face Blog
AI/ML

Intel과 Hugging Face가 SmoothQuant 양자화 기법으로 LLM을 INT8로 압축해 Xeon CPU에서 실시간 텍스트 생성 달성

Smaller is better: Q8-Chat, an efficient generative AI experience on Xeon

2023년 5월 16일7intermediate

Context

대규모 언어 모델(LLM)은 고성능 GPU가 필요한 복잡한 부동소수점 연산으로 인해 비용이 높고 접근성이 낮다. 기존 양자화 기법은 LLM의 활성화 채널에 나타나는 큰 이상치(outlier) 때문에 모델 정확도를 심각하게 손상시킨다.

Technical Solution

  • SmoothQuant 기법 도입: 가중치와 활성화에 공동 수학 변환을 적용해 이상치와 일반값의 비율을 조정
  • INT8 정수 양자화 적용: FP16/BF16 부동소수점 모델을 8비트 정수로 변환해 메모리 사용량 감소
  • Post-Training Quantization(PTQ) 활용: 추가 학습 없이 기존 사전학습 모델에 직접 적용
  • Intel Sapphire Rapids CPU 플랫폼 활용: 32코어 단일 소켓 CPU에서 양자화된 LLM 실행
  • 다양한 LLM 모델 적용: OPT 2.7B/6.7B, LLaMA 7B, Alpaca 7B, Vicuna 7B, BloomZ 7.1B, MPT-7B-chat 양자화

Impact

  • 모델 크기 2배 감소(16비트 대비)
  • OPT 모델: 벤치마크의 대부분이 개선되거나 미미한 영향(3% 이하)
  • LLaMA 7B/BloomZ 7.1B: 약 절반의 작업에서 메트릭 개선, 나머지는 3% 이하의 경미한 저하
  • 토큰당 생성 시간 단축: Xeon에서 MPT-7B-chat의 배치 크기 1 조건으로 실시간 텍스트 생성 가능

Key Takeaway

SmoothQuant는 LLM을 정확도 손실 최소화하며 압축해 CPU 기반 추론을 실현함으로써, 엔터프라이즈 환경에서 GPU 투자 없이 생성형 AI를 운영할 수 있는 비용 효율적 경로를 제시한다.


CPU 기반 LLM 서비스를 운영하는 엔지니어라면, SmoothQuant를 통해 기존 사전학습 모델을 INT8로 양자화하고 Xeon 플랫폼에 배포하면 2배 크기 감소와 함께 모델 정확도를 실질적으로 유지할 수 있다. Hugging Face Optimum Intel 라이브러리(Intel Neural Compressor 통합 예정)를 활용하면 몇 줄의 코드로 이를 구현할 수 있다.

원문 읽기