피드로 돌아가기
Hugging Face BlogAI/ML
원문 읽기
Intel이 Signed Gradient Descent 기반 POST-TRAINING QUANTIZATION 기법으로 INT2~INT8 저비트 양자화에서 기존 방법 대비 최대 2.1배 높은 정확도 달성
Introducing AutoRound: Intel’s Advanced Quantization for LLMs and VLMs
AI 요약
Context
LLM과 VLM의 모델 크기가 증가하면서 배포 시 모델 크기 감소와 추론 지연 시간 단축이 필수적인 과제가 되었다.
Technical Solution
- Weight-only POST-TRAINING QUANTIZATION 방식 도입: Signed Gradient Descent를 사용해 가중치 반올림과 클리핑 범위를 동시에 최적화
- 저비트 양자화 지원: INT2, INT3, INT4, INT8 형식으로 최소한의 정확도 손실로 양자화 수행
- 혼합 비트 튜닝 기능: 모델의 다양한 레이어에 서로 다른 비트 폭(2~8비트) 적용 가능
- 다중 내보내기 포맷 지원: AutoRound, GPTQ, AWQ, GGUF 등 주요 포맷으로 양자화된 모델 직접 내보내기
- 효율적 캘리브레이션: 최소 128개 샘플로 200 스텝의 튜닝만으로 높은 정확도 달성
- 광범위한 모델 호환성: Qwen, LLaMA, DeepSeek 등 대부분의 LLM 아키텍처와 10개 이상의 VLM 지원
Impact
- INT2 양자화에서 인기 있는 기존 방법 대비 상대 정확도 2.1배 향상
- 72B 모델 양자화 시간을 A100 GPU 기준 37분으로 단축(Light 모드)
- Qwen2.5 72B 모델 기준 AutoRound-Light로 2분 내 양자화 완료(AutoAWQ는 105~230분 소요)
- Qwen2.5 0.5B INT4 양자화 시 기본 모드 0.4129 정확도를 2분 내 달성(Best 모드 7분 소요)
Key Takeaway
POST-TRAINING QUANTIZATION에서 경사 기반 최적화와 제한된 캘리브레이션 데이터셋을 결합하면 정확도 손실을 최소화하면서 양자화 시간을 획기적으로 단축할 수 있으며, 이는 저비트 정밀도에서 특히 효과적이다.
실천 포인트
LLM/VLM 배포 환경에서 추론 속도 개선이 필요할 때 AutoRound의 auto-round-light 모드를 적용하면 최소 128개 샘플 데이터로 수 분 내 INT4 양자화를 완료하면서도 기존 INT4 방법 대비 유사하거나 더 높은 정확도를 유지할 수 있다.