Mistral AI의 Voxtral TTS, RotorQuant의 Clifford 대수 양자화, vLLM의 분산 추론 최적화로 로컬 LLM 서빙이 3GB 메모리 90ms 초지연, 10-19배 양자화 가속, 100만 토큰/초 달성
Local LLM Acceleration: Quantization, TTS, and 1M Tokens/Sec
Local LLM Acceleration: Quantization, TTS, and 1M Tokens/Sec
Arm & ExecuTorch 0.7: Bringing Generative AI to the masses