Hugging Face BlogHugging Face와 AMD가 MI300X GPU용 커스텀 커널 3개를 개발해 Llama 3.1 405B FP8 추론의 디코딩 레이턴시를 최대 141.88% 단축Creating custom kernels for the AMD MI300Backendadvanced76 분 소요2025년 7월 9일