피드로 돌아가기
올리브영 테크블로그Backend
원문 읽기
올리브영 결제 이야기 Part - 2
올리브영이 Datadog을 도입하여 KEY=VALUE 패턴 로그 수집 → Timeseries/Query Value 위젯 대시보드 구성 → Slack 알람 연동으로 주문결제 시스템의 실시간 모니터링 체계 구축
AI 요약
Context
기존에는 주문결제 시스템의 장애를 운영 담당자가 인지하지 못해 고객센터 문의를 통해 뒤늦게 발견하는 문제가 발생했다. 주문 실패 문자 알람은 온라인몰과 PG사 장애 구분이 어렵고, 정상적인 실패 건수가 포함되며, 문자폭탄으로 인한 정보 처리의 어려움이 있었다.
Technical Solution
- 결제 프로세스 로그에 KEY=VALUE 패턴 추가: 결제수단, 결제진행상태(주문서진입, 결제창호출, 인증/승인, 주문완료) 등 구조화된 속성 기록
- Datadog 플랫폼 도입: 로그 집계 및 검색 기능 활용
- 모니터링 대시보드 구성: Timeseries와 Query Value 위젯을 사용하여 채널별(MW, APP, PC), OS/브라우저별, 결제수단별(신용카드, 네이버페이, 카카오페이, 계좌이체) 실패 현황 시각화
- Slack 채널 연동: 대시보드 알람을 Slack으로 전달하여 팀 내 공유 및 빠른 대응 체계 수립
- Grok Parser 도입 계획: 기존 로그 분석 방식에서 자동화된 속성 추출로 개선 중
Key Takeaway
실시간 모니터링을 통해 오류 발생 시 영향 범위를 최소화하고 빠른 복구 시간을 확보하는 것이 고객 서비스 신뢰를 지키는 핵심이다. 구조화된 로그 수집과 올바른 알람 채널 선정(문자 → Slack)을 조합하면 운영 효율성과 대응 속도를 동시에 향상시킬 수 있다.
실천 포인트
주문/결제 같은 핵심 비즈니스 프로세스 모니터링을 구축할 때, 로그에 결제수단과 진행상태처럼 분류 가능한 KEY=VALUE 속성을 명시적으로 포함하고 Datadog의 Timeseries/Query Value 위젯으로 차원별 대시보드를 구성하면 장애를 조기에 식별할 수 있다. 동시에 문자 알람 대신 Slack 같은 협업 도구를 연동하면 노이즈를 줄이면서 팀 내 빠른 공유와 대응이 가능해진다.