Intel이 Signed Gradient Descent 기반 POST-TRAINING QUANTIZATION 기법으로 INT2~INT8 저비트 양자화에서 기존 방법 대비 최대 2.1배 높은 정확도 달성

Introducing AutoRound: Intel’s Advanced Quantization for LLMs and VLMs

2025년 4월 29일9분intermediate

AI 요약

Context

LLM과 VLM의 모델 크기가 증가하면서 배포 시 모델 크기 감소와 추론 지연 시간 단축이 필수적인 과제가 되었다.

Weight-only POST-TRAINING QUANTIZATION 방식 도입: Signed Gradient Descent를 사용해 가중치 반올림과 클리핑 범위를 동시에 최적화
저비트 양자화 지원: INT2, INT3, INT4, INT8 형식으로 최소한의 정확도 손실로 양자화 수행
혼합 비트 튜닝 기능: 모델의 다양한 레이어에 서로 다른 비트 폭(2~8비트) 적용 가능
다중 내보내기 포맷 지원: AutoRound, GPTQ, AWQ, GGUF 등 주요 포맷으로 양자화된 모델 직접 내보내기
효율적 캘리브레이션: 최소 128개 샘플로 200 스텝의 튜닝만으로 높은 정확도 달성
광범위한 모델 호환성: Qwen, LLaMA, DeepSeek 등 대부분의 LLM 아키텍처와 10개 이상의 VLM 지원

POST-TRAINING QUANTIZATION에서 경사 기반 최적화와 제한된 캘리브레이션 데이터셋을 결합하면 정확도 손실을 최소화하면서 양자화 시간을 획기적으로 단축할 수 있으며, 이는 저비트 정밀도에서 특히 효과적이다.

실천 포인트

LLM/VLM 배포 환경에서 추론 속도 개선이 필요할 때 AutoRound의 auto-round-light 모드를 적용하면 최소 128개 샘플 데이터로 수 분 내 INT4 양자화를 완료하면서도 기존 INT4 방법 대비 유사하거나 더 높은 정확도를 유지할 수 있다.

태그