피드로 돌아가기
Postmortem: A Vercel Edge Function Timeout Caused Our Global API to Fail for 30 Minutes
Dev.toDev.to
Infrastructure

Edge Function Timeout 설정 오류로 인한 30분간의 Global API 전면 장애 분석

Postmortem: A Vercel Edge Function Timeout Caused Our Global API to Fail for 30 Minutes

ANKUSH CHOUDHARY JOHAL2026년 5월 7일3intermediate

Context

Vercel Edge Function 기반의 Global API 아키텍처 운용 중 발생한 설정 오류 사례. Downstream PostgreSQL 쿼리 및 외부 Auth 서비스의 평균 응답 시간인 2.8초를 고려하지 않은 과도한 Timeout 단축 설정이 병목 지점으로 작용함.

Technical Solution

  • maxDuration 설정을 10초에서 1초로 단축한 설정 변경 건을 롤백하여 서비스 정상화
  • 과거 7일간의 실행 시간 P95 지표와 신규 Timeout 설정값을 비교하는 Pre-deployment Validation 로직 도입
  • 설정 변경 시 1%에서 100%까지 점진적으로 적용하는 Staged Rollout 메커니즘 구축
  • Error Rate 1% 초과 시 즉각적으로 이전 버전으로 복구하는 Automatic Rollback 체계 설계
  • Timeout 발생률 5% 초과 시 Slack으로 알림을 전송하는 조기 경보 시스템 구현
  • Edge Function 장애 대응 절차를 명시한 전용 Runbook 작성 및 배포 프로세스 내 검토 단계 추가

1. Timeout 설정 변경 전 최근 7일간의 P95 응답 시간 확인

2. 모든 인프라 설정 변경에 대해 Canary 배포 또는 Staged Rollout 적용 여부 검토

3. 전체 장애 발생 전 징후를 포착할 수 있는 임계치 기반의 세분화된 Alerting 설정

원문 읽기