피드로 돌아가기
On-Call Wellness: Protecting Your Engineers from Burnout
Dev.toDev.to
DevOps

SRE 이탈률 40%에서 8%로 감소시킨 On-Call 운영 체계 최적화

On-Call Wellness: Protecting Your Engineers from Burnout

Samson Tanimawo2026년 6월 27일2intermediate

Context

지속 불가능한 On-Call 부하로 인한 시니어 SRE의 연쇄 이탈 발생. 높은 교체 비용 및 운영 효율 저하를 초래한 비효율적 장애 대응 프로세스 해결 필요.

Technical Solution

  • 8시간 교대 근무당 Page 횟수를 2회로 제한하여 임계치 초과 시 Secondary 자동 전환 및 프로세스 실패로 에스컬레이션하는 Hard Cap 도입
  • 미국 전역 시간대를 활용한 Follow-the-Sun Rotation 설계를 통해 야간 호출을 최소화하고 업무 시간 내 대응 체계 구축
  • 전체 업무 시간의 30%를 Toil Budget으로 설정하여 운영 업무 비중 초과 시 On-Call 제외 및 자동화 강제 수행 구조 설계
  • 야간 장애 대응 시간에 따른 보상 휴가 및 현금 보상을 제도화하여 심리적/물질적 보상 체계 마련
  • 분기별 Page 횟수와 Toil 비율을 분석하는 Quarterly Review 프로세스를 통해 데이터 기반의 운영 리스크 관리

Impact

  • 연간 이탈률(Attrition rate) 40%에서 8%로 급감
  • 교대 근무당 평균 Page 횟수 4.7회에서 1.2회로 감소
  • 주당 Off-hours Page 12회에서 2회로 개선
  • 연간 채용 비용 약 $400K 절감 및 Team NPS -15에서 +45로 상승

Key Takeaway

On-Call Wellness는 단순한 복지가 아닌 시니어 엔지니어 리소스 유지와 직결된 비즈니스 의사결정이며, 정량적 제한(Budget/Cap)을 통한 운영 부하 제어가 필수적임.


1. 교대 근무당 최대 Page 횟수 설정 및 초과 시 에스컬레이션 경로 정의

2. 엔지니어별 Toil Budget(예: 30%) 설정 및 초과 시 자동화 태스크 우선 배정

3. 시간대별 분산 배치를 통한 Follow-the-Sun Rotation 검토

4. 주기적인 On-Call 메트릭(Page 횟수, 야간 호출 빈도) 측정 및 리뷰 체계 구축

원문 읽기