Hugging Face가 LayerSkip 기법으로 대규모 언어모델의 조기 종료(Early Exit)와 자체 투기 디코딩(Self-Speculative Decoding)을 결합해 텍스트 생성 속도 향상 및 메모리 절감
Faster Text Generation with Self-Speculative Decoding
Faster Text Generation with Self-Speculative Decoding
Faster Text Generation with TensorFlow and XLA