피드로 돌아가기
I got tired of writing post-mortems — so I built RCAi for SREs
Dev.toDev.to
DevOps

Incident Timeline 기반의 자동 RCA 생성 시스템 구축으로 초안 작성 시간 1분 미만 단축

I got tired of writing post-mortems — so I built RCAi for SREs

Prince Haywood2026년 5월 25일1intermediate

Context

장애 발생 후 Post-mortem 작성 과정에서 발생하는 Blank-page 문제와 반복적인 수동 문서화 작업의 비효율성 존재. SRE 운영 환경의 높은 업무 부하로 인한 RCA 작성 지연 및 정형화된 문서 구조 확보의 어려움 해결 필요.

Technical Solution

  • Incident Timeline 데이터를 구조화된 Post-mortem 형식으로 변환하는 AI 기반 워크플로우 설계
  • Claude Commercial API 채택을 통한 데이터 학습 배제 및 기업 보안 요구사항 충족
  • API Key를 저장하지 않고 Import 시점에만 전달하는 Stateless Credential 처리 방식으로 보안성 강화
  • React-FastAPI-Firebase로 구성된 가벼운 스택을 통해 빠른 프로토타이핑과 배포 환경 구축
  • 다양한 조직 요구사항 대응을 위한 Executive, Deep Technical 등 다중 Template 엔진 구현
  • Vercel과 Railway를 활용한 서버리스 및 컨테이너 기반의 확장 가능한 인프라 배치

1. LLM 도입 시 데이터 학습 제외 옵션(Commercial API) 검토

2. 외부 API 연동 시 보안을 위해 Credentials의 서버 저장 지양 및 Client-side 전달 방식 고려

3. 사용자 경험 개선을 위해 정형화된 출력 포맷(Markdown/PDF) 제공 체계 마련

원문 읽기