Mobius 팀이 Half-Quadratic Quantization(HQQ)을 도입해 LLM 양자화 시간을 50배 단축하고 캘리브레이션 데이터 없이 GPTQ/AWQ 수준의 압축 품질 달성

Half-Quadratic Quantization of large machine learning models

Eric Wang,Dmitriy Meyerzon,Dmitriy Meyerzon,Hicham Badri,Appu Shaji,Craig Wilhite,Josh Clemm,Jason Shang,Artem Nabirkin,Dropbox Team,Ameya Bhatawdekar,Sean-Michael Lewis,Appu Shaji,Hicham Badri,Appu Shaji2025년 10월 22일12분advanced

AI 요약

Context

LLM 배포 시 메모리 요구량이 심각한 병목이다. 기존 GPTQ, AWQ 같은 캘리브레이션 기반 양자화 방식은 높은 압축 품질을 제공하지만 캘리브레이션 데이터 편향, 계산 비용 증가 문제가 있다. 예를 들어 Llama-2-70B 양자화에 GPTQ는 상당한 시간이 소요되어 여러 모델 테스트 및 배포를 어렵게 만든다.

Technical Solution

l_p<1 노름 손실 함수로 가중치 이상치 최소화: 제곱 오차 대신 hyper-Laplacian 분포를 사용해 이상치의 heavy-tailed 특성을 정확히 모델링
Half-Quadratic 분할 최적화 도입: 비볼록 문제를 추가 변수 W_e 도입으로 더 간단한 부분 문제로 분해해 alternate optimization으로 순차 해결
영점 z만 최적화, 스케일링 s는 고정: 매개변수 최적화 범위를 좁혀 계산 복잡도 감소
캘리브레이션 데이터 제거: 외부 데이터 없이 가중치만 사용하여 데이터 편향 문제 완전 제거
계층별 독립 최적화: 각 계층의 양자화 매개변수를 독립적으로 결정하여 병렬 처리 가능

Impact

Llama-2-70B 양자화 시간: 5분 미만 (GPTQ 대비 50배 이상 단축)
ViT-B-32 4-bit 양자화: bitsandbytes 대비 zero-shot 정확도 +3.1% top-1
ViT-H-14 3-bit 양자화: 전체 정밀도 ViT-L-14 대비 +2.4% top-1 zero-shot 정확도
ViT-H-14 2-bit 양자화: 전체 정밀도 ViT-B-32 대비 +5.2% top-1 zero-shot 정확도
Llama-2-70B 2-bit 양자화: 같은 메모리 사용량에서 전체 정밀도 Llama-2-13B 대비 우수한 성능

Key Takeaway

모델 양자화 시 캘리브레이션 데이터에 의존하지 않고도 적절한 손실 함수와 최적화 알고리즘으로 높은 압축 품질을 달성할 수 있다. Half-Quadratic 분할 기법은 비볼록 최적화 문제를 실제 구현 가능한 수준으로 단순화하는 강력한 도구다.

실천 포인트

LLM이나 비전 모델을 저비트 양자화(2-4bit)로 압축해야 하는 팀에서 HQQ를 도입하면 캘리브레이션 데이터 수집·전처리 오버헤드를 없애면서도 GPTQ/AWQ와 경쟁할 수 있는 모델 품질을 50배 빠른 시간에 얻을 수 있다.

태그

#Quantization #Model Compression #Half-Quadratic #Optimization #LLM

원문 읽기