Hugging Face BlogHugging Face가 DataCollatorWithFlattening과 Flash Attention 2를 결합해 패딩 제거 시퀀스 학습에서 2배 처리량 향상 달성Improving Hugging Face Training Efficiency Through Packing with Flash Attention 2Backendintermediate16 분 소요2024년 8월 21일