피드로 돌아가기
How To Write A Post Mortem Report Without Blame Language
Dev.toDev.to
DevOps

Blame-free Post-mortem을 통한 시스템 복원력 및 엔지니어링 문화 개선

How To Write A Post Mortem Report Without Blame Language

Michael Lip2026년 6월 3일7intermediate

Context

개별 엔지니어의 실수에 집중하는 Blame-centric 보고서 체계로 인한 심리적 안전감 저해 및 동일 장애 반복 발생. Human Error를 근본 원인으로 정의함에 따라 시스템적 결함을 식별하지 못하는 구조적 한계 노출.

Technical Solution

  • Objective Facts 기반의 Timeline 구성으로 주관적 판단 배제 및 관찰 가능한 데이터 중심 기록
  • Neutral Language 채택을 통한 심리적 방어 기제 제거 및 장애 상황의 객관적 묘사
  • Five Whys 기법을 활용하여 Human Error 이면에 숨겨진 System Gap 도출
  • 행동 교정이 아닌 시스템 보완(CI 파이프라인 검증 단계 추가, Alert 고도화 등) 중심의 Action Item 설계
  • 팀 리뷰 프로세스 도입을 통한 보고서의 정확성 확보 및 책임 전가 요소 제거

Key Takeaway

장애의 근본 원인은 사람이 아닌 시스템의 부재에 있으며, Blame-free 문화 구축을 통해 정보 투명성을 확보하고 시스템적 안전장치를 강화하는 것이 진정한 가용성 향상의 핵심임.


- '실수했다', '누락했다' 대신 '동작하지 않았다', '응답하지 않았다'는 중립적 표현 사용 여부 확인 - Action Item이 '주의하기', '교육하기' 등 추상적 행동 지침이 아닌 '체크리스트 추가', '자동화 도구 도입' 등 시스템적 해결책인지 검토 - Root Cause 분석 시 '사람'이 나오면 최소 3회 더 'Why'를 질문하여 인프라/프로세스 결함 도출 - Timeline 작성 시 추측성 문장을 제거하고 Timestamp 기반의 팩트만 나열했는지 점검

원문 읽기