피드로 돌아가기
Hacker NewsAI/ML
원문 읽기
Apple Silicon 최적화로 122B MoE 모델을 MacBook에서 구현한 SwiftLM
TurboQuant KV Compression and SSD Expert Streaming for M5 Pro and IOS
AI 요약
Context
Python 런타임과 GIL로 인한 추론 성능 저하 문제 발생. 거대 MoE 모델 로드 시 macOS Unified Memory 부족으로 인한 커널 패닉 현상 지속. KV Cache 메모리 점유율 증가로 인한 컨텍스트 제한 문제 직면.
Technical Solution
- Metal 및 Swift 기반의 100% Native Apple Silicon 설계로 Python 오버헤드 및 메모리 복사 제거
- V2의 속도와 V3의 품질을 결합한 하이브리드 TurboQuant 아키텍처 구현
- C++ 인코딩 경로에 Lloyd-Max 코드북을 이식하고 Metal 셰이더에서 직접 역양자화를 처리하는 구조
- K-Cache에 3-bit PolarQuant와 1-bit QJL(Johnson-Lindenstrauss) 잔차 보정을 적용한 고정밀 압축 방식
- V-Cache에서 불필요한 QJL 보정을 제거하여 추가 메모리 효율을 확보한 최적화 전략
- NVMe SSD에서 GPU 커맨드 버퍼로 MoE 레이어를 직접 스왑하는 Zero-Copy Streaming 기술 도입
Impact
- FP16 대비 KV Cache 용량 약 3.5배 압축
- 전체 좌표당 약 3.6 bits 수준의 압축률 달성
- V-Cache 내 QJL 제거를 통해 메모리 25% 추가 절감
Key Takeaway
하드웨어 가속 셰이더 레벨에서 양자화 로직을 융합함으로써 소프트웨어 디코딩의 지연 시간을 제거하고 고품질 압축을 동시에 달성 가능함.
실천 포인트
122B 이상의 거대 MoE 모델 구동 시 macOS 가상 메모리 스와핑 방지를 위해 SSD Expert Streaming 설정을 활성화할 것