피드로 돌아가기
Lo que las entrevistas de trabajo me enseñaron sobre Kubernetes
Dev.toDev.to
DevOps

정의 중심 학습 탈피를 통한 K8s 운영 장애 진단 시간 70% 단축

Lo que las entrevistas de trabajo me enseñaron sobre Kubernetes

Juan Torchia2026년 6월 16일10intermediate

Context

API 객체 정의 위주의 이론적 학습과 실제 프로덕션 환경의 운영 간 괴리로 인한 장애 대응 능력 저하 발생. 단순한 객체 정의 숙지보다 실제 장애 상황에서의 Resource 제어 및 Scheduling 메커니즘 이해가 필수적인 상황.

Technical Solution

  • Requests와 Limits 설정을 통한 Scheduler의 정확한 노드 배치 유도 및 OOMKiller에 의한 프로세스 강제 종료 방지
  • LivenessProbe와 ReadinessProbe의 명확한 구분 설정을 통한 무분별한 컨테이너 재시작 방지 및 트래픽 유입 제어
  • DB 마이그레이션 비호환성 해결을 위해 RollingUpdate 대신 Recreate 전략을 채택한 무중단 배포 제약 조건 관리
  • PodDisruptionBudget 및 ResourceQuota 설정을 통한 Rolling Update 중 최소 가용 Pod 수 보장 및 네임스페이스 자원 고갈 방지
  • Custom Metrics 기반의 HPA 설정을 통해 CPU/Memory 외 메시지 큐 및 P95 레이턴시 기준의 동적 스케일링 구현
  • NodeSelector 및 Affinity/Tolerations 설정을 통한 워크로드 특성별 최적 노드 배치 최적화

- `kubectl rollout status` 및 `kubectl get events`를 통한 배포 상태 및 최신 이벤트 선제적 확인 - `jsonpath`를 활용한 Pod 내 Container Resource 설정값의 실제 적용 여부 검증 - HPA 활성화 상태 및 적용된 메트릭 기준의 적절성 주기적 검토 - `status.phase!=Running` 필터링을 통한 CrashLoopBackOff 및 Pending 상태 Pod의 즉각적 식별

원문 읽기