피드로 돌아가기
Dev.toAI/ML
원문 읽기
NVFP4 양자화 통한 Qwen3.6-35B VRAM 71GB에서 23GB로 3.06배 절감
Qwen3.6-35B NVFP4 runs on one H100 — A100 owners are out
AI 요약
Context
35B MoE 모델 배포 시 BF16 기준 약 71GB의 VRAM이 요구되어 단일 GPU 탑재가 불가능한 구조적 한계 존재. 이를 해결하기 위해 다중 GPU Tensor Parallelism 없이 단일 H100 내 모델 상주를 위한 초고밀도 압축 전략 필요.
Technical Solution
- Linear Operator의 Weights와 Activations에 NVFP4 양자화를 적용한 메모리 풋프린트 최소화 설계
- 수치적 안정성 확보를 위해 LayerNorm, Embedding, Bias 영역은 BF16/F32 정밀도를 유지하는 선택적 양자화 전략 채택
- cnn_dailymail 및 Nemotron-Post-Training-Dataset-v2를 혼합한 듀얼 데이터셋 캘리브레이션으로 구조적 지시 이행 능력 보존
- Hopper 및 Blackwell 아키텍처 전용 FP4 Compute Path를 활용한 네이티브 하드웨어 가속 구현
- MTP(Multi-Token Prediction) 헤드를 체크포인트 내 내장하여 별도 Draft 모델 없는 Speculative Decoding 구조 설계
- KV-cache-dtype FP8 설정을 통한 컨텍스트 윈도우 확장 및 메모리 효율 극대화
실천 포인트
- Hopper/Blackwell 아키텍처 여부를 먼저 확인하여 FP4 네이티브 지원 가능성 검토 - VRAM 제약 상황에서 KV-cache-dtype FP8 설정을 통한 컨텍스트 확장 가능성 확인 - 정밀도가 중요한 레이어는 BF16/F32로 유지하는 선택적 양자화 전략 적용 - MTP 기반 Speculative Decoding 도입으로 추론 지연 시간 단축 방안 검토