피드로 돌아가기
GeekNewsAI/ML
원문 읽기
Qwen3.5 모델 양자화, 왜 커뮤니티 버전은 성능이 떨어지나
레이어별 민감도 기반 혼합 비트 양자화로 Qwen3.5 모델 성능 복구
AI 요약
Context
Qwen3.5의 하이브리드 구조 내 linear_attn.out_proj 레이어가 4비트 압축 시 lm_head 대비 120배 높은 정보 손실 민감도를 보임. 모든 레이어에 동일 비트를 적용하는 균일 양자화 방식으로 인한 도구 호출 오류 및 환각 현상 발생.
Technical Solution
- 레이어별 정보 손실 측정 지표인 KLD 기반의 150개 이상 벤치마크 실험 수행
- 민감도에 따라 비트 수를 차등 배분하는 Mixed-bit Quantization 구조 설계
- 상대적 저민감도 영역인 MLP 레이어에 3비트를 할당하여 연산량 최적화
- Attention Q/K/V 레이어에 5비트 적용 및 AWQ 기법을 통한 가중치 보정 수행
- 극심한 민감도를 가진 출력 레이어의 bf16 정밀도 유지를 통한 모델 붕괴 방지
- 위키피디아 대신 실제 도구 호출 및 코딩 예제를 Calibration 데이터로 사용하여 실제 환경 정밀도 확보
실천 포인트
1. 모델 압축 시 레이어별 KLD 분석을 통한 민감도 맵 작성 여부 확인
2. 일괄 양자화 대신 중요 레이어의 정밀도를 보존하는 Mixed-precision 전략 검토
3. 일반 데이터셋이 아닌 실제 서비스 도메인 특성이 반영된 Calibration 데이터셋 구축