Hugging Face BlogAWS와 Hugging Face가 optimum-neuron 라이브러리를 통해 Llama 2를 AWS Inferentia2에 컴파일·배포하여 inf2.48xlarge에서 토큰당 2~3ms의 레이턴시와 초당 227~750 토큰의 처리량 달성Make your llama generation time fly with AWS Inferentia2Backendintermediate19 분 소요2023년 11월 7일