피드로 돌아가기
Dev.toDevOps
원문 읽기
Incident Timeline 기반의 자동 RCA 생성 시스템 구축으로 초안 작성 시간 1분 미만 단축
I got tired of writing post-mortems — so I built RCAi for SREs
AI 요약
Context
장애 발생 후 Post-mortem 작성 과정에서 발생하는 Blank-page 문제와 반복적인 수동 문서화 작업의 비효율성 존재. SRE 운영 환경의 높은 업무 부하로 인한 RCA 작성 지연 및 정형화된 문서 구조 확보의 어려움 해결 필요.
Technical Solution
- Incident Timeline 데이터를 구조화된 Post-mortem 형식으로 변환하는 AI 기반 워크플로우 설계
- Claude Commercial API 채택을 통한 데이터 학습 배제 및 기업 보안 요구사항 충족
- API Key를 저장하지 않고 Import 시점에만 전달하는 Stateless Credential 처리 방식으로 보안성 강화
- React-FastAPI-Firebase로 구성된 가벼운 스택을 통해 빠른 프로토타이핑과 배포 환경 구축
- 다양한 조직 요구사항 대응을 위한 Executive, Deep Technical 등 다중 Template 엔진 구현
- Vercel과 Railway를 활용한 서버리스 및 컨테이너 기반의 확장 가능한 인프라 배치
실천 포인트
1. LLM 도입 시 데이터 학습 제외 옵션(Commercial API) 검토
2. 외부 API 연동 시 보안을 위해 Credentials의 서버 저장 지양 및 Client-side 전달 방식 고려
3. 사용자 경험 개선을 위해 정형화된 출력 포맷(Markdown/PDF) 제공 체계 마련