피드로 돌아가기
Hugging Face BlogBackend
원문 읽기
Hugging Face가 NVIDIA NIM을 통해 Enterprise 사용자에게 서버리스 추론 API를 제공하여 H100 GPU 시간당 $8.25의 종량제 모델로 LLM 인프라 비용 최적화
Serverless Inference with Hugging Face and NVIDIA NIM
AI 요약
Context
개발자와 조직은 LLM 추론 워크로드 최적화의 복잡성과 인프라의 높은 초기 비용 문제를 마주하고 있었다. 자체 GPU 인프라를 구축하고 운영하는 것은 상당한 자본 투자와 최적화 노하우를 필요로 했다.
Technical Solution
- OpenAI API 표준 규격 준수: chat.completions.create와 models.list 엔드포인트를 OpenAI SDK로 호출 가능하게 구현
- NVIDIA DGX Cloud 인프라 활용: H100 Tensor Core GPU를 기반으로 메타-라마(Meta-Llama) 및 Mistral 모델에 최적화된 컴퓨팅 리소스 제공
- 세분화된 토큰 기반 인증: Enterprise Hub 조직별로 fine-grained token을 발급하여 API 접근 제어
- 모델별 GPU 리소스 할당: 8B 모델은 1개 H100, 70B는 4개, 405B-FP8은 8개 GPU로 구성하여 처리 능력에 맞게 배치
- 종량제 가격 모델: 요청 처리 시간 기준 청구 (초당 $0.0023 = 시간당 $8.25 기준)
Impact
- 8B 모델: 500개 입력 토큰 + 100개 출력 토큰 처리 시 약 1초 소요, 요청당 약 $0.0023 비용
- 70B 모델: 동일 조건에서 약 2초 소요, 요청당 약 $0.0184 비용
- 405B-FP8 모델: 동일 조건에서 약 5초 소요, 요청당 약 $0.0917 비용
Key Takeaway
OpenAI API 표준을 준수하면서 NVIDIA 가속 컴퓨팅의 전문성을 숨김으로써, Enterprise 개발자는 기존 OpenAI 클라이언트 코드를 거의 수정하지 않고 다양한 오픈소스 모델을 사용할 수 있게 되었다. 이는 종량제 모델과 함께 인프라 구축 비용을 제거하고 실제 사용량만큼 지불하는 경제성을 제공한다.
실천 포인트
Enterprise 조직에서 LLM 추론 API를 구축할 때, OpenAI API 규격을 기준으로 설계하면 기존 클라이언트 라이브러리와 호환되어 마이그레이션 비용이 최소화된다. 또한 모델 크기별로 GPU 할당을 달리하고 초 단위 종량제 가격을 책정하면, 사용자는 자신의 워크로드 특성에 맞는 모델을 선택할 때 명확한 비용 예측을 할 수 있다.