피드로 돌아가기
I built an open-source alternative to Microsoft's KAITO that works on ANY Kubernetes cluster
Dev.toDev.to
Infrastructure

Cloud-agnostic K8s 네이티브 LLMOps 통합 플랫폼 구축

I built an open-source alternative to Microsoft's KAITO that works on ANY Kubernetes cluster

GaeaRuiW2026년 6월 9일2advanced

Context

Azure 전용인 KAITO의 클라우드 종속성과 KServe의 과도한 의존성 구성 요소로 인한 배포 복잡성 발생. vLLM 단독 사용 시 모니터링, 인증, Autoscaling 등 운영 필수 기능의 개별 구축 부담 가중.

Technical Solution

  • Helm Chart 단일 배포를 통한 Model Serving, Gateway, Observability 통합 아키텍처 설계
  • vLLM, llama.cpp, TEI 중 모델 포맷에 따른 최적 Serving 엔진 자동 선택 로직 구현
  • LiteLLM 기반 AI Gateway 도입으로 Unified API 제공 및 Rate Limiting, Budget Control 통합 관리
  • KEDA 활용 및 Queue Depth, TTFT P95, TPOT P95 지표 기반의 정밀한 Autoscaling 및 Scale-to-zero 구현
  • Keycloak SSO와 LLM-Guard를 결합한 엔터프라이즈급 보안 계층 및 Prompt Injection 방어 체계 구축
  • Dify, pgvector, Ragas를 연계한 End-to-End RAG 파이프라인 및 평가 체계 내재화

- LLM 배포 시 인프라 종속성을 제거하기 위한 Cloud-agnostic 레이어 검토 - KEDA를 활용하여 단순 CPU/Memory가 아닌 LLM 특화 지표(TTFT, TPOT) 기반의 스케일링 전략 수립 - 모델 서빙 외에 Gateway-Observability-Security를 통합한 LLMOps 스택의 일관성 확보

원문 읽기