피드로 돌아가기
Everything Was Green. Production Was Failing.
Dev.toDev.to
Infrastructure

Control Plane-Data Plane 불일치로 인한 14시간 장애 및 해결

Everything Was Green. Production Was Failing.

Pavan Bhatia2026년 6월 20일8advanced

Context

B2B 파트너의 Static IP allowlisting 제약으로 인해 NLB(Fixed IP)와 ALB(L7 Routing)를 조합한 이중 계층 Ingress 구조 설계. ALB의 Host-header 기반 보안 강화 규칙이 NLB의 기본 HTTP Health Check와 충돌하여 신규 노드가 서비스에서 배제되는 구조적 결함 발생.

Technical Solution

  • ALB의 Host-header 검증을 우회하는 Dedicated Health Path 설계로 인프라 프로브의 가용성 확보
  • 단순 평균값 기반의 1분 단위 Metric Rollup을 폐지하고 Sub-minute 단위의 세밀한 변동성 모니터링 도입
  • 인프라 지표와 실제 사용자 경험의 간극을 메우기 위한 External Synthetic Monitoring 체계 구축
  • Transport Layer의 단순 상태 확인과 Application Layer의 보안 컨텍스트를 분리하여 설계함으로써 Scale-out 시의 가용성 보장

1. L7 보안 규칙(Host-header, Auth 등) 적용 시 Health Check 경로가 해당 규칙에 영향을 받는지 확인하십시오.

2. CloudWatch 등 모니터링 도구의 Average 통계가 급격한 Churn이나 Localized Drop을 마스킹하는지 검토하십시오.

3. 인프라 지표(HealthyHostCount) 외에 실제 사용자 요청을 모사한 Synthetic Transaction 테스트를 파이프라인에 포함하십시오.

4. 레거시 제약 사항(Static IP 등)으로 도입한 복잡한 아키텍처가 현재에도 유효한지 정기적으로 재검증하십시오.

원문 읽기