피드로 돌아가기
Deploy Embedding Models with Hugging Face Inference Endpoints
Hugging Face BlogHugging Face Blog
Backend

Hugging Face Inference Endpoints에서 Text Embeddings Inference를 통해 BAAI/bge-base-en-v1.5 모델을 배포해 OpenAI Embeddings 대비 64배 비용 절감

Deploy Embedding Models with Hugging Face Inference Endpoints

2023년 10월 24일8intermediate

Context

Generative AI와 LLM의 확산으로 검색, 챗봇 등 retrieval augmented generation 작업에서 embedding 모델의 중요도가 증가했다. Embedding 모델은 LLM보다 크기가 작고 추론 속도가 빠르지만, 모델 변경이나 파인튜닝 후 embedding을 재생성해야 하므로 전체 retrieval augmentation 프로세스의 속도가 사용자 경험에 직결된다.

Technical Solution

  • Hugging Face Inference Endpoints 플랫폼 도입: 모델 배포를 UI 클릭 몇 번으로 완료하고 자동 스케일링, scale-to-zero 기능으로 미사용 시간대 비용 절감
  • Text Embeddings Inference(TEI) 런타임 사용: Flash Attention, Candle, cuBLASLt 기반 최적화된 Transformers 코드와 토큰 기반 동적 배칭으로 처리량 극대화
  • GPU 인스턴스 선택: BAAI/bge-base-en-v1.5 모델을 1x Nvidia A10G 인스턴스에 배포해 벤치마크 성능 달성
  • 배치 요청 지원: 단일 요청 대신 여러 문서를 동시 전송하는 배치 API를 활용해 엔드포인트 활용률 증대
  • 자동 truncation 옵션: 요청에 truncate: true 설정으로 입력 길이 초과 처리

Impact

  • 512 토큰 시퀀스 길이, 배치 크기 32 기준 초당 처리량 450+ req/sec 달성
  • 토큰 비용 $0.00000156 / 1k tokens (OpenAI Embeddings의 $0.0001 / 1K tokens 대비 64배 저렴)
  • 엔드포인트 배포 후 1-3분 내 온라인 상태 진입

Key Takeaway

Open-source embedding 모델을 managed SaaS로 배포할 때, 토큰 기반 동적 배칭과 최적화된 추론 엔진을 조합하면 대규모 배치 처리에서 매우 높은 처리량을 낮은 비용으로 달성할 수 있다.


Retrieval augmented generation 시스템을 구축하는 팀에서 Text Embeddings Inference를 통해 Hugging Face Inference Endpoints에 embedding 모델을 배포하면, 자체 인프라 관리 없이 초당 450+ 요청을 처리하면서 OpenAI 서비스 대비 64배 비용을 절감할 수 있다.

원문 읽기