모니터링 스택의 6가지 숨겨진 결함(미구성 Escalation Policy, 통지 채널 없는 Alert, 손상된 Dashboard 등)을 체계적으로 감지하는 다중 도구 감사 프레임워크
How to Audit Your Monitoring Stack (Before the Next Incident Does It for You)
How to Audit Your Monitoring Stack (Before the Next Incident Does It for You)
AWS Lambda in C# with Datadog Integration
올리브영이 Datadog을 도입해 3,500대 POS 실시간 모니터링을 구축하여 문제 탐지 시간을 4분 30초에서 59초로 76% 단축
올리브영이 10년 된 레거시 매장 도메인을 DDD와 멀티모듈 아키텍처로 재구축하고, External/Internal API를 분리해 대고객·내부 서비스 동시 제공
뱅크샐러드가 100여개 금융사 API에 Observability와 모니터링 시스템을 도입해 API 성공률을 90%에서 99%로 개선
올리브영이 모놀리식 구조에서 클라우드 + MSA로 전환하며 Datadog을 도입해 인프라·애플리케이션·비즈니스 지표를 통합 모니터링
올리브영 주문·결제 스쿼드가 Datadog 모니터링, Slack 알림, 온콜 시스템, 배치 기반 검증을 조합해 올영 세일 기간 대규모 트래픽 안정성 확보
올리브영 QA팀이 Datadog의 APM 로그, RUM, Synthetics를 활용해 배포 전 잠재적 이슈 조기 발견 및 운영 중 장애 대응 시간 단축
올리브영 B2B 물류 스쿼드가 AWS MSK Connect와 CDC 도입으로 배치 시스템을 제거하고 실시간 비동기 메시지 기반 아키텍처 구축
Datadog이 Dash 2022 컨퍼런스에서 OpenTelemetry 정식 지원, Service Catalog, PowerPacks, Data Streams, Cloud Cost Management 5가지 신기능 공개
올리브영이 Datadog을 도입하여 KEY=VALUE 패턴 로그 수집 → Timeseries/Query Value 위젯 대시보드 구성 → Slack 알람 연동으로 주문결제 시스템의 실시간 모니터링 체계 구축
올리브영이 ECS Fargate에서 Datadog Agent Container와 JVM Tracing Agent를 연동해 Application 로그·상태·API 응답속도를 통합 모니터링