피드로 돌아가기
Dev.toDevOps
원문 읽기
21개 검증 통과, GitOps와 Kyverno 기반의 Self-Service AI 플랫폼 재구축
I Revived a Broken MLOps Platform — Now It's Self-Service, Policy-Guarded, and Operationally Credible
AI 요약
Context
Backstage CrashLoopBackOff와 ArgoCD 상태 불일치 및 KServe의 Ingress 설정 오류로 인해 가동 불능 상태였던 MLOps 플랫폼. manual kubectl apply 중심의 배포 프로세스로 인한 설정 드리프트와 보안 정책 부재라는 구조적 결함 존재.
Technical Solution
- Backstage Scaffolder를 통한 Golden Path 구축으로 YAML 직접 수정 없는 Self-Service 배포 환경 구현
- ArgoCD ApplicationSet과 GitOps Spine 도입을 통한 소스 기반의 단일 진실원(Source of Truth) 확보 및 자동 Drift 복구 설계
- Kyverno 기반의 Shift-Left 정책 검증 체계를 구축하여 CI 단계와 Admission 단계에서 비정상 리소스 배포를 원천 차단
- KServe의 기본 설정과 실제 클러스터의 Kourier Ingress 간 불일치를 해결하여 Inference 서비스의 가용성 확보
- kyverno-cli의 Exit Code와 Stdout을 동시 검증하는 Dual-check 로직을 구현하여 CI 상의 False-green 오류 제거
- ResourceQuota 및 LimitRange 설정을 통해 멀티테넌시 환경의 자원 고갈 방지 및 인프라 안정성 강화
실천 포인트
1. Admission Controller 도입 시 ArgoCD 등 배포 도구와의 실행 순서를 정의했는가
2. CI 파이프라인에서 단순 성공/실패 코드 외에 실제 위반 사항(Stdout)을 검증하는가
3. 인프라 기본 설정(Default)이 실제 런타임 환경의 Ingress/Network 설정과 일치하는가
4. 운영자 개입 없는 Self-healing을 위해 ArgoCD의 selfHeal 및 prune 옵션을 활성화했는가