피드로 돌아가기
Qwen3.5 모델 양자화, 왜 커뮤니티 버전은 성능이 떨어지나
GeekNewsGeekNews
AI/ML

Qwen3.5 모델 양자화, 왜 커뮤니티 버전은 성능이 떨어지나

레이어별 민감도 기반 혼합 비트 양자화로 Qwen3.5 모델 성능 복구

ragingwind2026년 4월 18일2advanced

Context

Qwen3.5의 하이브리드 구조 내 linear_attn.out_proj 레이어가 4비트 압축 시 lm_head 대비 120배 높은 정보 손실 민감도를 보임. 모든 레이어에 동일 비트를 적용하는 균일 양자화 방식으로 인한 도구 호출 오류 및 환각 현상 발생.

Technical Solution

  • 레이어별 정보 손실 측정 지표인 KLD 기반의 150개 이상 벤치마크 실험 수행
  • 민감도에 따라 비트 수를 차등 배분하는 Mixed-bit Quantization 구조 설계
  • 상대적 저민감도 영역인 MLP 레이어에 3비트를 할당하여 연산량 최적화
  • Attention Q/K/V 레이어에 5비트 적용 및 AWQ 기법을 통한 가중치 보정 수행
  • 극심한 민감도를 가진 출력 레이어의 bf16 정밀도 유지를 통한 모델 붕괴 방지
  • 위키피디아 대신 실제 도구 호출 및 코딩 예제를 Calibration 데이터로 사용하여 실제 환경 정밀도 확보

1. 모델 압축 시 레이어별 KLD 분석을 통한 민감도 맵 작성 여부 확인

2. 일괄 양자화 대신 중요 레이어의 정밀도를 보존하는 Mixed-precision 전략 검토

3. 일반 데이터셋이 아닌 실제 서비스 도메인 특성이 반영된 Calibration 데이터셋 구축

원문 읽기