피드로 돌아가기
GeekNewsInfrastructure
원문 읽기
GitHub Actions가 다운됐음
Health Check 오설정 및 Routing 오류로 인한 Actions 가용성 저하 해결
AI 요약
Context
GitHub Actions의 대규모 워크플로 오케스트레이션을 처리하는 분산 인프라 환경. Health Check 오설정과 Service Discovery 전파 지연 등 인프라 의존성 관리 부재로 인한 연쇄 장애 발생.
Technical Solution
- 상위 의존성의 일시적 지연이 Pod 제거 및 남은 용량 부하 집중으로 이어지는 Cascading Failure 구조 파악
- 메모리 압박으로 인한 클러스터 붕괴 시 정상 지역 클러스터로의 트래픽 우회 및 용량 확장 처리
- 계획된 장애 조치 중 Service Discovery 업데이트 미전파로 인한 잘못된 Routing 경로 수동 수정
- 연쇄 장애 방지를 위한 Health Check 구성 강화 및 자동 트래픽 재분산 메커니즘 도입
- 장애 조치 완료 전 상태 검증을 수행하는 가드레일 및 의존성 회복력(Resilience) 개선 설계
Impact
- 5월 20일 인시던트: 전체 실행 4.5% 및 Scale Set 작업 30% 지연 발생
- 5월 15일 인시던트: 최대 영향 시점 기준 Actions 실행의 42% 실패 기록
- 최근 90일 기준 Actions 가동률 99.66% 유지
실천 포인트
1. Health Check 임계값을 설정할 때 일시적인 지연 급증(Spike)이 Pod의 대량 제거로 이어지지 않도록 보수적으로 구성했는가?
2. 특정 리전의 클러스터 장애 시 타 리전으로 즉시 트래픽을 전환할 수 있는 자동 Failover 체계가 구축되어 있는가?
3. Service Discovery 업데이트 후 실제 라우팅이 정상 적용되었는지 검증하는 사전/사후 체크리스트가 존재하는가?
4. 인프라 변경 작업 중 발생할 수 있는 Timeout 연쇄 반응을 차단하기 위한 Circuit Breaker 또는 Retry 전략이 적용되었는가?