피드로 돌아가기
InfoQInfoQ
Infrastructure

K8s v1.36: AI 워크로드 최적화 및 보안 강화로 전환된 Opinionated Defaults

Kubernetes v1.36: Security Defaults Tighten as AI Workload Support Matures

Matt Saunders2026년 5월 14일6advanced

Context

기존 Kubernetes는 범용 프레임워크 지향 설계로 인해 AI 워크로드의 복잡한 GPU 자원 할당과 분산 학습의 전처리 과정에서 비효율 발생. 특히 Pod 단위의 개별 Preemption과 정수 기반의 GPU 할당 모델로 인해 리소스 낭비 및 학습 작업의 부분 실패라는 구조적 한계 존재.

Technical Solution

  • User Namespaces GA를 통한 컨테이너 Root 사용자와 호스트 Non-privileged 사용자 매핑으로 Node 관리자 권한 탈취 차단
  • CEL 기반 Mutating Admission Policies 도입으로 외부 Webhook 서버 의존성을 제거한 Native 고성능 Mutation 로직 구현
  • DRA(Dynamic Resource Allocation) 기반 Partitionable Devices 도입을 통한 GPU 분할 및 공유 모델 구현으로 정수 기반 할당 한계 극복
  • PodGroup 단위의 Workload-Aware Preemption 설계를 통해 분산 학습 작업의 부분적 Eviction으로 인한 진행 불가 상태 해결
  • Sharded List and Watch Stream 도입으로 단일 연결 기반의 API 서버 병목 현상을 다중 스트림 분산 구조로 해결
  • In-Place Vertical Scaling Beta 적용으로 컨테이너 재시작 없이 Pod 수준의 CPU/Memory 리소스 envelope 동적 조정 가능

- 분산 AI 학습 환경 구축 시 PodGroup 기반의 Preemption 정책 적용 여부 검토 - Admission Webhook 운영 비용 절감을 위해 CEL 기반 Mutating Admission Policies 전환 고려 - SELinux 적용 환경에서 Pod 시작 지연 해소를 위해 mount-o context 옵션 활용 여부 확인 - 대규모 클러스터의 API 서버 부하 감소를 위해 Sharded Watch Stream 적용 검토 - gitRepo 볼륨 플러그인 제거에 따른 init container 또는 external git-sync 도구로의 마이그레이션 수행

원문 읽기