Hugging Face BlogHugging Face Transformers와 AWS Inferentia를 결합하여 BERT 추론 레이턴시를 5-6ms로 단축하고 GPU 대비 80% 비용 절감Accelerate BERT inference with Hugging Face Transformers and AWS InferentiaAI/MLintermediate22 분 소요2022년 3월 16일