피드로 돌아가기
올리브영 테크블로그DevOps
원문 읽기
에러로그 하나에 깨던 새벽에서 벗어나기까지 — 상품 모니터링 진화기
DLQ와 Datadog Workflow 기반의 운영 공수 최소화 모니터링 체계 구축
AI 요약
Context
Oracle에서 Aurora 및 Opensearch로의 데이터 이관을 위해 Debezium 기반 CDC 아키텍처를 도입함. 초기에는 단순 로그 기반 Slack 알림과 배치 정합성 체크에 의존하여, 데이터 정합성 오류 인지 지연 및 새벽 시간대 담당자의 높은 온콜 피로도가 병목 지점으로 작용함.
Technical Solution
- 일시적 네트워크 오류로 인한 병목 방지를 위해 3회 재시도 후 최종 실패 건만 분리하는 DLQ(Dead Letter Queue) 프로세스 설계
- 단순 알림을 넘어 장애 원인 분석 자동화를 위해 Datadog Workflow 기반의 진단 파이프라인 구축
- Monitor ID를 통한 서비스 매핑 및 최근 15분 APM 지표와 7일 Baseline 데이터를 병렬 수집하여 이상 징후 분석
- 평시 대비 에러 급증 배수 및 리소스 집중도를 계산하여 사람이 즉각 판단 가능한 형태의 퀵 리포트 생성
- QA팀 협업을 통한 온디맨드 정합성 검증 웹 페이지 구축으로 개발자 직접 제어 환경 마련
- Bits AI 대비 권한 제어가 용이하고 응답 완료 시점이 명확한 Workflow 방식을 채택하여 분석 리드타임 단축
실천 포인트
- CDC 기반 데이터 파이프라인 설계 시, 후속 메시지 병목 방지를 위한 재시도 횟수 제한 및 DLQ 도입 검토 - 온콜 알림 발생 시 APM 지표와 Baseline 데이터를 결합한 자동 분석 리포트를 함께 제공하여 MTTR(Mean Time To Repair) 단축 도모 - 정합성 검증 로직을 코드에서 분리하여 운영자가 직접 조건을 변경하고 실행할 수 있는 셀프 서비스 도구 구축