피드로 돌아가기
GeekNewsAI/ML
원문 읽기
Gemma 4 QAT 모델: 모바일과 노트북 효율성을 위한 압축 최적화
QAT 기반 최적화로 Gemma 4 E2B 메모리 풋프린트 1GB 달성
AI 요약
Context
표준 PTQ(Post-Training Quantization) 방식의 모델 압축 시 발생하는 심각한 품질 저하 및 온디바이스 추론 시의 메모리 병목 현상이 주요 제약 사항으로 작용함. 특히 모바일 NPU/GPU의 하드웨어 가속기 구조와 일반적인 압축 형식 간의 불일치로 인한 연산 효율 저하가 문제로 지적됨.
Technical Solution
- 학습 과정에 양자화 시뮬레이션을 통합하는 QAT(Quantization Aware Training) 도입을 통한 압축 손실 최소화 및 품질 보존
- 정적 활성화(Static Activation) 설정을 학습 단계에서 사전 계산하여 모바일 칩의 런타임 연산 부하 감소 및 응답 속도 개선
- 모바일 가속기 네이티브 계산을 지원하는 채널별 양자화(Per-channel Quantization) 설계를 통한 우회 연산 제거
- 추론 핵심 레이어는 고정밀도를 유지하고 토큰 생성부는 2비트로 강하게 압축하는 선택적 2비트 양자화(Selective 2-bit Quantization) 적용
- 임베딩 레이어와 KV 캐시 영역에 압축을 집중시켜 활성 메모리 점유율을 낮추고 컨텍스트 윈도우 효율성 확보
- 모달리티별 선택적 배포 구조를 설계하여 텍스트 전용 모델의 경우 불필요한 인코더를 제거함으로써 메모리 최적화
Impact
- Gemma 4 E2B 텍스트 전용 모델 기준 메모리 풋프린트 1GB 미만 달성
- Gemma 4 12B Q4_0 모델의 예상 VRAM 사용량을 6.7GB 수준으로 낮춰 8GB VRAM GPU에서 구동 가능
실천 포인트
1. 온디바이스 배포 시 PTQ의 성능 저하가 심하다면 QAT 레시피 도입 검토
2. 타겟 하드웨어 가속기의 네이티브 연산 구조에 맞춘 채널별 양자화 스키마 설계 여부 확인
3. 모델 전체의 균일한 압축보다 중요 레이어별 정밀도를 차등 적용하는 선택적 양자화 전략 수립
4. 런타임 오버헤드 감소를 위해 Static Activation 등 사전 계산 가능한 파라미터의 정적화 적용