Hugging Face BlogIntel과 Hugging Face가 SmoothQuant 양자화 기법으로 LLM을 INT8로 압축해 Xeon CPU에서 실시간 텍스트 생성 달성Smaller is better: Q8-Chat, an efficient generative AI experience on XeonAI/MLintermediate15 분 소요2023년 5월 16일