Hugging Face Blog대규모 분류·임베딩 작업(1B+ 일일 요청)에서 배치 사이즈와 가상 사용자 수를 파라미터로 최적화하여 GPU 활용률과 비용-지연 시간 트레이드오프를 정량화한 벤치마킹 방법론1 Billion ClassificationsBackendintermediate40 분 소요2025년 2월 13일