Qwen3.5 모델 양자화, 왜 커뮤니티 버전은 성능이 떨어지나

레이어별 민감도 기반 혼합 비트 양자화로 Qwen3.5 모델 성능 복구

ragingwind2026년 4월 18일2분advanced

AI 요약

Context

Qwen3.5의 하이브리드 구조 내 linear_attn.out_proj 레이어가 4비트 압축 시 lm_head 대비 120배 높은 정보 손실 민감도를 보임. 모든 레이어에 동일 비트를 적용하는 균일 양자화 방식으로 인한 도구 호출 오류 및 환각 현상 발생.

실천 포인트

1. 모델 압축 시 레이어별 KLD 분석을 통한 민감도 맵 작성 여부 확인

2. 일괄 양자화 대신 중요 레이어의 정밀도를 보존하는 Mixed-precision 전략 검토

3. 일반 데이터셋이 아닌 실제 서비스 도메인 특성이 반영된 Calibration 데이터셋 구축

태그