Apple과 Hugging Face가 Mixed-Bit Palettization을 도입해 Stable Diffusion XL을 Mac에서 4.5bit 평균 압축률로 실행 가능하게 함

Stable Diffusion XL on Mac with Advanced Core ML Quantization

2023년 7월 27일10분intermediate

AI 요약

Context

Stable Diffusion XL은 1024x1024 고해상도 이미지를 생성하지만 모델 크기가 대폭 증가해 소비자 하드웨어에서 실행이 느리고 어렵다. 기존 균일한 6-bit Palettization은 모델 품질 저하를 초래했으며, 추가 압축 시 품질 손실이 급격히 증가했다.

Technical Solution

Core ML로 Stable Diffusion XL 기본 모델을 포팅해 Swift 네이티브 앱에서 실행 가능하도록 변환
Mixed-Bit Palettization 기법 도입: 각 레이어별로 1bit, 2bit, 4bit, 8bit 중 최적의 양자화 비트 수를 개별 선택
PSNR(Peak Signal-to-Noise Ratio) 메트릭으로 각 레이어의 품질 저하를 측정해 양자화 레시피 자동 생성
분석 단계에서 GPU를 활용해 여러 임계값으로 다양한 양자화 전략 생성, 적용 단계는 JSON 레시피 기반으로 수 분 내 완료
3가지 최적 레시피를 Stable Diffusion XL Core ML UNet에 적용하여 Hub에 배포

Impact

원본 모델 PSNR 82dB 대비 4.5bit 레시피는 PSNR 75.8dB 유지하면서 평균 4.5bit 압축 달성
6.55bit 레시피는 PSNR 79.9dB(원본 대비 약 2.8% 저하)로 유지하면서 압축
MacBook Pro M1 Max에서 46초, Mac Studio M2 Ultra에서 20초(end-to-end latency) 측정
Mac Studio M2 Ultra에서 초당 1.11회 확산 반복(iteration) 달성

Key Takeaway

레이어별 품질 영향도를 측정해 비트 수를 차등 배분하는 Mixed-Bit Palettization은 균일 양자화의 한계를 넘어 품질과 크기의 더 나은 균형점을 찾을 수 있으며, 이는 소비자 기기에서 대규모 생성 모델 실행 시 일반화 가능한 압축 전략이 된다.

실천 포인트

Mac에서 대형 생성 모델을 배포해야 하는 iOS/macOS 개발자는 Mixed-Bit Palettization 레시피를 적용하면, 기존 6bit 균일 양자화 대비 품질 저하를 최소화하면서 추가 30~40% 크기 감소를 달성할 수 있으며, 제공된 오픈소스 스크립트로 자체 파인튜닝 모델에도 동일 기법을 3단계(분석→레시피 생성→적용)로 적용 가능하다.

태그

#Stable Diffusion XL #Model Compression #Apple-Silicon #Mixed-Bit Palettization #Core ML Quantization

원문 읽기