피드로 돌아가기
Hacker NewsAI/ML
원문 읽기
Qwen3.5-122B 모델을 48GiB GGUF로 압축한 Edge AI 최적화 기법
Launch HN: General Instinct (YC P26) – Frontier models on edge devices
AI 요약
Context
데이터센터 중심의 대형 GPU와 고대역폭 메모리 가정을 기반으로 설계된 Frontier 모델의 Edge 디바이스 탑재 한계 발생. 로보틱스 등 물리 시스템의 엄격한 하드웨어 제약으로 인한 모델 크기와 메모리 요구사항의 불일치 해결 필요.
Technical Solution
- Router, Norms, Gated-DeltaNet/SSM layers 등 상시 활성화 레이어의 정밀도 보존을 통한 기본 성능 유지
- MoE 구조의 Routed Experts에 대해 공격적인 Quantization을 적용한 모델 크기 최소화
- Quantization 과정에서 손실된 추론 능력을 복구하기 위한 On-policy Distillation 수행
- 전문가 가중치를 System RAM에서 스트리밍하는 Small GPU Configuration 설계를 통한 VRAM 부하 분산
- GGUF 포맷 변환을 통한 Edge 하드웨어 호환성 및 추론 효율성 확보
Impact
- BF16 기준 245GB의 Qwen3.5-122B-A10B 모델을 48GiB GGUF 크기로 압축
- 8k Context Window 기준 Peak VRAM 사용량을 7.6~8GB 수준으로 절감
- Gemma-4-26B-A4B보다 작은 크기로 MMLU-Pro 및 GPQA-D 벤치마크 성능 상회
Key Takeaway
모델의 모든 파라미터를 동일하게 처리하지 않고, 중요도에 따라 정밀도를 차등 적용하는 선택적 Quantization과 Distillation의 조합이 Edge AI 최적화의 핵심임.
실천 포인트
1. MoE 모델 최적화 시 Router 및 공통 레이어와 전문가 레이어의 Quantization 비중을 분리하여 검토
2. VRAM 부족 시 전문가 가중치를 System RAM에서 스트리밍하는 아키텍처 설계 고려
3. 단순 양자화 후 성능 저하 발생 시 On-policy Distillation을 통한 역량 복구 프로세스 도입