Hugging Face ViT 모델을 로컬 TensorFlow Serving 배포에서 Docker 및 Kubernetes를 활용한 멀티 유저 대응 클러스터 배포로 확장

Deploying 🤗 ViT on Kubernetes with TF Serving

2022년 8월 11일10분intermediate

AI 요약

Context

로컬 TensorFlow Serving 배포는 단일 사용자 환경에 적합하나, 실무에서 다수의 사용자 요청을 처리하려면 확장 가능한 인프라가 필요하다. Vision Transformer 모델의 이미지 전처리/후처리 및 gRPC 요청 처리는 로컬 환경에서 동작하지만, 프로덕션 환경에서는 자동 스케일링과 보안을 제공하는 오케스트레이션 플랫폼이 필수이다.

Technical Solution

SavedModel 디렉토리 구조 표준화: <MODEL_NAME>//SavedModel 형식으로 모델 저장하여 TensorFlow Serving의 다중 버전 관리 기능 활용
Docker 기반 컨테이너화: TensorFlow Serving 공식 이미지를 베이스로 사용하고 docker run 및 docker cp를 통해 모델을 컨테이너에 복사한 후 docker commit으로 커스텀 이미지 생성
Kubernetes 클러스터 배포: Google Kubernetes Engine(GKE)을 사용하여 컨테이너를 오케스트레이션하고 자동 스케일링, 보안, 멀티 유저 요청 처리 지원
TensorFlow Serving 배치 처리 구성: max_batch_size, num_batch_threads 등의 설정을 통해 자동 배치 구성으로 다중 샘플을 효율적으로 처리
모델 워밍업 활성화: enable_model_warmup 옵션으로 더미 입력 데이터를 사용해 TensorFlow 컴포넌트를 사전 로드하여 서비스 시간 중 지연 제거

Key Takeaway

Kubernetes 기반 ML 모델 배포는 SageMaker, Vertex AI 같은 관리형 서비스와 달리 세부 제어권을 제공하며, 업계에서 수년간 검증된 워크플로우로서 Docker 컨테이너화와 조합하면 대규모 프로덕션 환경에서 안정적으로 확장 가능한 추론 서비스를 구축할 수 있다.

실천 포인트

HuggingFace Transformers 기반 모델을 프로덕션에 배포하는 엔지니어는 TensorFlow Serving SavedModel 형식 + Docker 컨테이너화 + Kubernetes 오케스트레이션 조합을 사용하면, 자동 스케일링과 다중 버전 관리를 통해 로컬 배포 대비 멀티 유저 환경을 지원할 수 있다.

태그

#Docker #Vision Transformer #ML Deployment #Kubernetes #TensorFlow Serving

원문 읽기