피드로 돌아가기
Slack EngineeringDevOps
원문 읽기
Deploy Safety: Reducing customer impact from change
Slack이 Deploy Safety 프로그램으로 변경 유발 장애로 인한 고객 영향 시간을 18개월에 걸쳐 90% 감소
AI 요약
Context
2023년 중반 Slack은 고객 영향 장애의 73%가 코드 배포로 촉발되었음을 파악했습니다. Slack이 고객에게 더욱 미션 크리티컬해지면서 안정성 기대치가 증가했고, 수백 개의 내부 서비스와 다양한 배포 시스템에서 발생하는 변경 유발 장애를 일관되게 관리할 수 없었습니다.
Technical Solution
- 고객 영향 시간 목표 설정: 자동 감지 및 복구 10분 이내, 수동 감지 및 복구 20분 이내로 정의
- Deploy Safety Manifesto 수립: 모든 배포 시스템과 프로세스에 적용되는 자동화된 시스템 개선 및 안전 가드레일 구현
- Deploy Safety 메트릭 설계: 고객 영향 시간(고심각도 및 선별된 중간 심각도의 변경 유발 장애)을 측정하는 메트릭 도입
- 투자 전략 수립: 초기에 광범위하게 투자하되 알려진 문제 영역부터 우선하고, 결과 기반으로 프로젝트 재평가
- 향후 계획 수립: 중앙화된 배포 오케스트레이션 도구 확대(EC2, Terraform 등), 자동 롤백 기능, AI 기반 메트릭 이상 탐지, AI 생성 사전 프로덕션 테스트 롤아웃
Impact
- 고객 영향 시간: 최고점으로부터 90% 감소하여 지속적으로 하락 추세
- 측정 기간: 2023년 중반부터 2025년 1월까지 약 18개월
Key Takeaway
신뢰성 개선은 개별 시스템 단위가 아닌 조직 전체 배포 프로세스 표준화를 통해 달성되며, 정성적 고객 감정과 정량적 메트릭 간의 연결고리를 명확히 정의하고 지속적으로 검증하는 것이 프로그램 성공의 핵심입니다.
실천 포인트
고객 영향 장애의 70% 이상이 특정 변경 유형(배포)에서 발생하는 조직에서는 전사적 Deploy Safety 메트릭(고객 영향 시간)을 단일 진실 공급원으로 설정하고, 자동화된 감지·복구 목표를 10~20분으로 정의한 후 배포 오케스트레이션 도구 중앙화와 자동 롤백 메커니즘을 우선 투자하면 고객 영향 시간을 6개월 내 30% 이상 단축할 수 있습니다.