AWS와 Hugging Face가 optimum-neuron 라이브러리를 통해 Llama 2를 AWS Inferentia2에 컴파일·배포하여 inf2.48xlarge에서 토큰당 2~3ms의 레이턴시와 초당 227~750 토큰의 처리량 달성
Make your llama generation time fly with AWS Inferentia2
Make your llama generation time fly with AWS Inferentia2
Llama 2 on Amazon SageMaker a Benchmark
Fine-tuning Llama 2 70B using PyTorch FSDP
Llama 2 is here - get it on Hugging Face