피드로 돌아가기
Why we’re switching to Hugging Face Inference Endpoints, and maybe you should too
Hugging Face BlogHugging Face Blog
Backend

팀이 AWS ECS 기반 ML 모델 배포를 Hugging Face Inference Endpoints로 마이그레이션해 레이턴시 2.5배 단축과 배포 인지 부하 감소

Why we’re switching to Hugging Face Inference Endpoints, and maybe you should too

2023년 2월 15일8intermediate

Context

ML 모델 추론 서비스를 AWS ECS + Fargate 기반의 자체 관리형 컨테이너에서 실행하고 있었으나, 배포 프로세스의 복잡성과 인지 부하가 증가하고 있었다. 추론 서비스 배포를 위해 컨테이너 빌드, ECR 업로드, ECS 작업 정의 관리 등 여러 단계의 운영이 필요했다.

Technical Solution

  • ML 모델 배포 대상을 AWS ECS에서 Hugging Face Inference Endpoints로 변경: Hugging Face Hub에 업로드된 모델을 managed service로 직접 배포
  • 배포 방식 단순화: ECS 기반 다단계 프로세스(컨테이너 빌드 → ECR 업로드 → 작업 정의 관리 → ECS 배포)를 Hugging Face Inference Endpoints 원클릭 배포 또는 hugie CLI 도구로 통합
  • 컴퓨팅 인스턴스 타입 확대: CPU만 사용하던 기존 배포에서 Intel Ice Lake 기반 다양한 vCPU(1~8코어) 및 메모리(2~16GB) 사양으로 스케일링 옵션 제공
  • 다중 클라우드 인프라 지원: AWS와 Azure 리전, GCP는 추가 예정된 구조로 배포 유연성 확보

Impact

  • 레이턴시: ECS large 인스턴스(~200ms) 대비 Inference Endpoints large 인스턴스(80 ± 30ms) 약 2.5배 단축, 최대 응답 시간은 108ms
  • 처리량: 동일 크기 large 인스턴스에서 테스트 완료 시간 80초(Inference Endpoints) vs ECS 미측정, 테스트 기준 1000개 요청 처리
  • 비용: 월간 운영 비용 24~50% 증가(small: +$10.62, medium: +$27.23, large: +$60.44, xlarge: +$126.85)

Key Takeaway

Managed ML 추론 서비스 도입은 인프라 운영 비용 증가분이 배포 자동화로 얻는 시간·인지 부하 감소보다 가치 있을 수 있으며, 특히 ML 팀이 전담 MLOps 조직 없이 운영 중일 때 적절한 트레이드오프가 될 수 있다. 다만 수백 개 이상의 ML 마이크로서비스를 배포할 규모에서는 원가 재검토가 필요하다.


Hugging Face 생태계(transformers, AutoTrain, Hub)를 이미 사용 중인 ML팀에서는 자체 ECS 기반 컨테이너 배포 대신 Inference Endpoints를 도입하면 배포 파이프라인을 AWS ECS→Hugging Face Inference Endpoints로 단순화할 수 있으며, 추가 월간 비용이 서버 $50~150 범위일 경우 운영 인력 감축으로 충분히 상쇄된다.

원문 읽기