피드로 돌아가기
올리브영 테크블로그DevOps
원문 읽기
올리브영은 인시던트를 어떻게 관리하고 있는가?
올리브영이 전체 Usecase 작성과 CSP 정의를 통해 누구나 부담 없이 인시던트를 선언하고 Slack 일원화로 빠른 대응 체계 구축
AI 요약
Context
온라인몰 운영 중 장애 발생 시 내부 직원들이 공유 방법을 몰라 인시던트 처리가 늦어지고 손실이 증가하는 문제가 있었습니다. 또한 기존에 2개의 메신저를 사용하면서 공유 채널이 분산되어 관련 부서에 장애 정보가 제때 전파되지 않는 문제가 있었습니다.
Technical Solution
- 전체 Usecase 작성: 올리브영 시스템의 모든 기능별 Usecase를 문서화하여 연관도와 CSP(Critical Serving Path) 파악 기반 마련
- CSP 도입: 올리브영 전체 시스템의 주요 기능들을 정의하여 중요한 장애와 아닌 장애 구분
- 인시던트 레벨 정의: 매출 손실액과 고객 영향도를 기준으로 인시던트 심각도를 5단계로 분류 (MD, 영업, 마케팅, SCM 등 이해관계자 협의)
- 인시던트 보고·공유 체계 일원화: 기존 2개 메신저에서 Slack으로 일원화하여 알림 수신 대상자를 명확히 정의
- 인시던트 선언 프로세스 자동화: AWS Lambda 기반으로 "/으악" 커맨드 입력 시 자동으로 인시던트 Slack 채널 생성 및 팀장 자동 알림 전화 발송
- 실시간 상황 관리: Slack Canvas에서 장애 처리 상황을 실시간으로 기록하고 인시던트 레벨 자동 선언
- 인시던트 보고서 작성: 발생 현상, 비즈니스 영향, 원인, 처리 내용, 재발 방지 대책을 포함하고 5 Why Questions로 근본 원인 도출
- 인시던트 리뷰 미팅: 매달 인시던트 회의를 개최하여 원인 검증 및 재발 방지 방안 협의
- 재발 방지 대책 분류: Short-term, Mid-term, Long-term 3가지로 구분하여 관리
Impact
아티클에 정량적 성능 수치나 개선 지표가 명시되어 있지 않습니다.
Key Takeaway
인시던트 관리의 핵심은 빠른 발견과 전파이며, 이를 위해 명확한 레벨 정의, 자동화된 알림 시스템, 그리고 일원화된 커뮤니케이션 채널이 필수입니다. 사후 활동으로는 근본 원인을 정확히 파악하고 단계별 재발 방지 대책을 세우는 문화가 중요합니다.
실천 포인트
온라인 서비스를 운영하는 팀에서 인시던트 관리 체계를 도입할 때, (1) 비즈니스 임팩트 기준의 레벨 정의, (2) Slack 등 단일 커뮤니케이션 채널로의 일원화, (3) 자동 알림과 실시간 상황 공유, (4) 월단위 리뷰 미팅과 단계별 재발 방지 대책 관리를 함께 적용하면 인시던트 대응 시간 단축과 같은 문제의 반복 방지가 가능합니다.