Hugging Face가 NVIDIA NIM을 통해 Enterprise 사용자에게 서버리스 추론 API를 제공하여 H100 GPU 시간당 $8.25의 종량제 모델로 LLM 인프라 비용 최적화

Serverless Inference with Hugging Face and NVIDIA NIM

2024년 7월 29일8분intermediate

AI 요약

Context

개발자와 조직은 LLM 추론 워크로드 최적화의 복잡성과 인프라의 높은 초기 비용 문제를 마주하고 있었다. 자체 GPU 인프라를 구축하고 운영하는 것은 상당한 자본 투자와 최적화 노하우를 필요로 했다.

Technical Solution

OpenAI API 표준 규격 준수: chat.completions.create와 models.list 엔드포인트를 OpenAI SDK로 호출 가능하게 구현
NVIDIA DGX Cloud 인프라 활용: H100 Tensor Core GPU를 기반으로 메타-라마(Meta-Llama) 및 Mistral 모델에 최적화된 컴퓨팅 리소스 제공
세분화된 토큰 기반 인증: Enterprise Hub 조직별로 fine-grained token을 발급하여 API 접근 제어
모델별 GPU 리소스 할당: 8B 모델은 1개 H100, 70B는 4개, 405B-FP8은 8개 GPU로 구성하여 처리 능력에 맞게 배치
종량제 가격 모델: 요청 처리 시간 기준 청구 (초당 $0.0023 = 시간당 $8.25 기준)

Impact

8B 모델: 500개 입력 토큰 + 100개 출력 토큰 처리 시 약 1초 소요, 요청당 약 $0.0023 비용
70B 모델: 동일 조건에서 약 2초 소요, 요청당 약 $0.0184 비용
405B-FP8 모델: 동일 조건에서 약 5초 소요, 요청당 약 $0.0917 비용

Key Takeaway

OpenAI API 표준을 준수하면서 NVIDIA 가속 컴퓨팅의 전문성을 숨김으로써, Enterprise 개발자는 기존 OpenAI 클라이언트 코드를 거의 수정하지 않고 다양한 오픈소스 모델을 사용할 수 있게 되었다. 이는 종량제 모델과 함께 인프라 구축 비용을 제거하고 실제 사용량만큼 지불하는 경제성을 제공한다.

실천 포인트

Enterprise 조직에서 LLM 추론 API를 구축할 때, OpenAI API 규격을 기준으로 설계하면 기존 클라이언트 라이브러리와 호환되어 마이그레이션 비용이 최소화된다. 또한 모델 크기별로 GPU 할당을 달리하고 초 단위 종량제 가격을 책정하면, 사용자는 자신의 워크로드 특성에 맞는 모델을 선택할 때 명확한 비용 예측을 할 수 있다.

태그

#NVIDIA #Inference #API #Serverless #LLM

원문 읽기