피드로 돌아가기
Dev.toAI/ML
원문 읽기
DiffusionGemma 26B 登陸 M2 Max:MLX 吞吐量實測與 Context 極限挑戰
M2 Max 기반 DiffusionGemma 26B 4-bit 양자화로 31.6 tok/s 달성
AI 요약
Context
Apple Silicon 환경에서 26B 규모의 VLM을 구동하기 위한 메모리 제약 해결이 핵심 과제임. M4 24GB 모델의 경우 KV cache 확보 부족으로 인한 OOM 발생 및 Context 길이 1K 미만 제한이라는 아키텍처적 한계 노출.
Technical Solution
- MLX-VLM 프레임워크 기반의 4-bit 양자화 모델 채택을 통한 메모리 풋프린트 최적화
- MXFP4 양자화 버전의 dequantize 과정 중 Bias 파라미터 부재로 인한 ValueError 해결을 위해 mode="mxfp4" 패치 적용
- Standard 4-bit 모델 전환을 통한 추론 안정성 확보 및 생성 속도 최적화
- Metal GPU의 병렬 처리 특성을 고려한 Prompt Encoding 단계의 오버헤드 분석 및 500 tokens 이상에서의 처리 효율 최적화
- max_denoising_steps 파라미터 조절(48 → 16)을 통한 품질-속도 Trade-off 제어
Impact
- Standard 4-bit 적용 시 MXFP4 대비 생성 속도 115% 향상(14.7 → 31.6 tok/s)
- Prompt Encoding 속도 500 tokens 이후 650-700 tok/s 수준의 안정적 처리
- 96GB 통합 메모리 환경에서 Peak Memory 45.7 GB 점유 및 추론 가능 수준의 KV cache 공간 확보
- Concurrent 2 요청 시 단일 요청 피크와 유사한 31.2 tok/s의 총 처리량 기록
Key Takeaway
Unified Memory 구조의 Apple Silicon에서는 모델 크기에 따른 KV cache 가용 공간 확보가 Context Window 길이를 결정하는 핵심 제약 사항임. 또한 Metal backend의 순차적 커널 실행 특성으로 인해 고성능 Production Endpoint 구축보다는 로컬 추론 최적화에 적합한 구조적 특징을 가짐.
실천 포인트
- VLM 배포 시 양자화 포맷(MXFP4 vs Standard 4-bit)에 따른 메모리 점유율과 추론 속도 간 Trade-off 검토 - Apple Silicon 기반 추론 서버 설계 시 Metal GPU의 Concurrent Kernel Execution 부재로 인한 요청 대기 시간 고려 - 짧은 시퀀스 처리 시 발생하는 GPU Overhead를 인지하고 배치 크기 및 입력 길이 최적화 전략 수립 - 메모리 부족 시 양자화 정밀도 조정 및 denoising steps 하향 조정을 통한 처리량 확보