피드로 돌아가기
Dev.toDevOps
원문 읽기
SRE Attrition 40%에서 8%로 감소시킨 On-call 운영 체계 최적화
On-Call Wellness: Protecting Your Engineers from Burnout
AI 요약
Context
지속 불가능한 On-call 부하로 인한 시니어 SRE의 이탈 가속화 및 연간 50만 달러 이상의 채용 비용 발생 상황. 단순 운영 대응 중심의 구조로 인한 Alert Numbness 및 엔지니어 번아웃 심화.
Technical Solution
- Shift당 최대 Page 수를 2회로 제한하고 초과 시 Secondary 자동 전환 및 Process Failure로 정의하는 Hard Cap 정책 도입
- US 타임존 기반의 Overlapping Business-hours 설계를 통한 Follow-the-Sun Rotation 체계 구축으로 야간 호출 원천 차단
- 전체 업무 시간의 30%를 상한선으로 두는 Toil Budget 제도를 도입하여 임계치 초과 시 자동화 작업 우선 배정
- P1 장애 외 야간 호출 금지 및 자동화 기반 Escalation 로직 적용을 통한 On-call 가용성 확보
- 분기별 Page 수, Toil 비율, 이탈 징후를 추적하는 데이터 기반의 On-call Review 루프 생성
Impact
- Attrition Rate: 연간 40%에서 8%로 감소
- Pages per Shift: 평균 4.7회에서 1.2회로 개선
- Off-hours Pages: 주당 12회에서 2회로 감소
- Recruitment Cost: 연간 약 40만 달러 절감
- Team NPS: -15에서 +45로 상승
Key Takeaway
운영 부하(Toil)를 정량적 지표로 관리하고 이를 자동화 요구사항으로 강제 연결하는 피드백 루프 설계의 중요성.
실천 포인트
- 엔지니어별 주간 Toil 비율(운영 업무/전체 업무) 측정 및 30% 상한선 설정 - On-call Shift 내 최대 호출 횟수 정의 및 초과 시 자동 Escalation 프로세스 구축 - 글로벌 팀 구성 시 타임존 중첩을 활용한 Follow-the-Sun 스케줄링 검토 - P1 등급 외 야간 알림 제거 및 자동 복구 스크립트 우선순위 상향