피드로 돌아가기
InfoQAI/ML
원문 읽기
vLLM 기반 Hybrid Cloud AI as a Service 플랫폼 구축
Presentation: Realtime and Batch Processing of GPU Workloads
AI 요약
Context
개별 부서 단위로 파편화된 RAG 시스템을 전사적 AI as a Service로 통합하려는 요구 발생. 금융 규제 준수 및 비용 효율적인 GPU 자원 할당이 가능한 Private Cloud 기반 인프라 설계 필요.
Technical Solution
- vLLM 채택을 통한 Inference throughput 최적화 및 llama.cpp 대비 추론 속도 개선
- Vendor Lock-in 방지를 위해 Apache, CNCF 등 Foundation 기반의 Open Source Stack 우선 선정
- 개발 환경(AWS)과 운영 환경의 Bedrock 사용 여부를 분리하여 비용 최적화 설계
- OWASP LLM Top 10 및 FINRA 규제를 반영한 Model Denial of Service 방어 체계 구축
- Private Cloud 내 Terraform Provider와 API 기반의 Kubernetes GPU 클러스터 프로비저닝 구현
- Mainframe 데이터의 실시간 처리를 위한 CDC to Kafka 파이프라인 연결
실천 포인트
- LLM 인프라 설계 시 단순 성능 외에 OWASP Top 10 for LLM 기반의 보안 위협 분석 수행 - 비용 최적화를 위해 환경별(Dev/Prod) Inference Engine 및 Serverless 모델 분리 적용 - 오픈소스 선택 시 커뮤니티 활성도와 거버넌스 재단 소속 여부를 검토하여 지속 가능성 확보