피드로 돌아가기
Dev.toInfrastructure
원문 읽기
Kubernetes v1.36, AI/ML 최적화 스케줄링 및 보안 부채 청산
Kubernetes v1.36 Drops April 22: What Platform Engineers Actually Need to Know
AI 요약
Context
분산 AI/ML 워크로드의 증가로 인한 GPU 자원 낭비와 Pod 단위 Preemption으로 인한 전체 작업 지연 문제 발생. 기존 gitRepo 및 ingress-nginx의 보안 취약점으로 인한 아키텍처적 리스크 상존.
Technical Solution
- DRA Partitionable Devices 도입을 통한 단일 GPU의 논리적 분할 및 다수 워크로드 할당 구조 설계
- PodGroups 기반 Workload-Aware Preemption 구현으로 분산 학습 작업의 원자적 스케줄링 및 자원 효율성 확보
- Pod-scope Resource Management 적용을 통한 Pod 내 모든 컨테이너의 동일 NUMA Node 배치 보장
- gitRepo Volume Plugin 제거 및 init container/sidecar 패턴 전환을 통한 Root 권한 실행 벡터 차단
- externalIPs 제거 및 Gateway API/LoadBalancer 전환을 통한 MITM 공격 경로 제거
- HPA Scale-to-Zero 기능을 통한 외부 메트릭 기반 이벤트 드리븐 워크로드의 자원 최적화
실천 포인트
- gitRepo 볼륨 사용 여부 전수 조사 및 git-sync 사이드카 전환 - ingress-nginx에서 Envoy Gateway 또는 Cilium Gateway API로의 마이그레이션 계획 수립 - GPU 공유 클러스터 환경에서 DRA Beta 기능의 Staging 검증 - Service spec 내 externalIPs 사용처 식별 및 Gateway API 전환