피드로 돌아가기
Dev.toAI/ML
원문 읽기
Kubernetes 기반 vLLM 배포를 통한 OpenAI 호환 LLM API 구축
Your First LLM API on Kubernetes: From Model to Curl Request
AI 요약
Context
Kubernetes GPU 노드 확보 후 실제 모델을 서비스 가능한 API 형태로 노출하는 과정의 기술적 간극 존재. 단순 Pod 배포만으로는 모델 가중치 로드, 배치 처리, HTTP 서버 구축 등 LLM 특화 서빙 로직 구현이 불가함.
Technical Solution
- vLLM 서빙 엔진 도입을 통한 모델 가중치 로드 및 OpenAI 호환 API 인터페이스 자동 구현
- Kubernetes Secret을 활용한 Hugging Face Token 관리로 모델 교체 시 설정 변경 최소화 설계
- NVIDIA Device Plugin 기반의 GPU 리소스 할당을 통한 하드웨어 가속 환경 구성
- Pod Phase가 아닌 실제 모델 로드 및 서버 기동 로그 기반의 Readiness 판별 체계 적용
- Qwen2.5-1.5B 등 노드 메모리 용량에 맞춘 모델 선택으로 GPU OOM 방지 및 가용성 확보
실천 포인트
1. GPU 노드의 nvidia.com/gpu 할당 가능 여부를 kubectl로 우선 확인
2. 모델 접근 권한 관리를 위해 토큰을 환경 변수가 아닌 Kubernetes Secret으로 분리
3. 모델 명칭의 일치 여부를 확인하여 curl 요청 시 Model Mismatch 오류 방지
4. Pod Running 상태와 별개로 vLLM 서버의 실제 추론 가능 상태를 로그로 검증