피드로 돌아가기
On-Call Wellness: Protecting Your Engineers from Burnout
Dev.toDev.to
DevOps

SRE Attrition 40%에서 8%로 감소시킨 On-call 운영 체계 최적화

On-Call Wellness: Protecting Your Engineers from Burnout

Samson Tanimawo2026년 4월 15일2intermediate

Context

지속 불가능한 On-call 부하로 인한 시니어 SRE의 이탈 가속화 및 연간 50만 달러 이상의 채용 비용 발생 상황. 단순 운영 대응 중심의 구조로 인한 Alert Numbness 및 엔지니어 번아웃 심화.

Technical Solution

  • Shift당 최대 Page 수를 2회로 제한하고 초과 시 Secondary 자동 전환 및 Process Failure로 정의하는 Hard Cap 정책 도입
  • US 타임존 기반의 Overlapping Business-hours 설계를 통한 Follow-the-Sun Rotation 체계 구축으로 야간 호출 원천 차단
  • 전체 업무 시간의 30%를 상한선으로 두는 Toil Budget 제도를 도입하여 임계치 초과 시 자동화 작업 우선 배정
  • P1 장애 외 야간 호출 금지 및 자동화 기반 Escalation 로직 적용을 통한 On-call 가용성 확보
  • 분기별 Page 수, Toil 비율, 이탈 징후를 추적하는 데이터 기반의 On-call Review 루프 생성

Impact

  • Attrition Rate: 연간 40%에서 8%로 감소
  • Pages per Shift: 평균 4.7회에서 1.2회로 개선
  • Off-hours Pages: 주당 12회에서 2회로 감소
  • Recruitment Cost: 연간 약 40만 달러 절감
  • Team NPS: -15에서 +45로 상승

Key Takeaway

운영 부하(Toil)를 정량적 지표로 관리하고 이를 자동화 요구사항으로 강제 연결하는 피드백 루프 설계의 중요성.


- 엔지니어별 주간 Toil 비율(운영 업무/전체 업무) 측정 및 30% 상한선 설정 - On-call Shift 내 최대 호출 횟수 정의 및 초과 시 자동 Escalation 프로세스 구축 - 글로벌 팀 구성 시 타임존 중첩을 활용한 Follow-the-Sun 스케줄링 검토 - P1 등급 외 야간 알림 제거 및 자동 복구 스크립트 우선순위 상향

원문 읽기