피드로 돌아가기
올리브영 테크블로그Backend
원문 읽기
올리브영 결제 이야기 Part - 4
올리브영 주문·결제 스쿼드가 Datadog 모니터링, Slack 알림, 온콜 시스템, 배치 기반 검증을 조합해 올영 세일 기간 대규모 트래픽 안정성 확보
AI 요약
Context
올영 세일은 3개월마다 반복되는 대규모 고객 트래픽 집중 이벤트로, 카드사 장애·은행 서비스 점검 등 예상치 못한 결제 시스템 문제가 발생하기도 했다. 이러한 결제 장애는 고객 결제 실패 및 주문 지연으로 이어져 결제 성공률과 고객 만족도 저하를 야기했다.
Technical Solution
- Datadog Dashboard를 통한 실시간 모니터링: 결제 성공률, 결제 실패 건수, 주문 생성 시간, 주문 건수, PG사별 세분화된 지표를 24시간 수집 및 시각화
- Slack 알림 채널 연동: 서버 상태 변화, 시스템 오류, 주문 처리 지연, 결제 실패 발생 시 실시간 알림 전송
- 온콜(On-call) 자동화 시스템 구축: 결제 성공률이 임계치 미만으로 하락하면 담당자에게 자동 알림 발생 및 인시던트 선언 프로세스 실행
- 배치 기반 결제 검증 시스템 운영: 주문 완료 후 일정 시간 간격으로 결제 금액 자동 검증하여 결제 오류 조기 감지
- 세일 후 회고 프로세스 도입: 세일 기간 모든 이슈를 체계적으로 검토하고 반복적 오류 방지 방안 도출
Impact
아티클에 정량적 수치(성능 개선도, 응답 시간 단축, 가용성 수치 등)가 명시되지 않음.
Key Takeaway
대규모 트래픽 이벤트 대응에는 사전 모니터링 체계, 실시간 알림 자동화, 자동 검증 배치 시스템의 다층 방어(defense in depth) 조합이 필수적이다. 사후 회고를 통한 지속적 개선 없이는 같은 문제의 반복 발생을 피할 수 없다.
실천 포인트
높은 트래픽 이벤트를 대비하는 e-커머스 플랫폼이나 금융 결제 시스템에서는 Datadog 같은 APM 도구로 핵심 지표(성공률, 응답 시간, 오류율)를 대시보드화하고, Slack 등 협업 도구와 온콜 시스템을 연동해 임계치 초과 시 5분 이내 자동 알림을 보내는 구조를 갖춰야 한다. 추가로 배치 기반 재검증 시스템으로 누락된 오류를 사후 감지하고, 매 이벤트 후 회고 미팅을 제도화하면 점진적 안정성 개선을 담보할 수 있다.