HuggingFace 팀이 Megatron-DeepSpeed 학습 모델을 Transformers로 포팅하고 Pipeline Parallelism + Accelerate + CUDA 커널 최적화로 BLOOM 모델 추론 지연시간 5배 단축 및 처리량 50배 증가
Optimization story: Bloom inference
Optimization story: Bloom inference
Incredibly Fast BLOOM Inference with DeepSpeed and Accelerate