피드로 돌아가기
DASH 2024,올리브영은 어떻게 Datadog으로 비즈니스를 모니터링하는가?
올리브영 테크블로그올리브영 테크블로그
DevOps

DASH 2024,올리브영은 어떻게 Datadog으로 비즈니스를 모니터링하는가?

올리브영이 모놀리식 구조에서 클라우드 + MSA로 전환하며 Datadog을 도입해 인프라·애플리케이션·비즈니스 지표를 통합 모니터링

2024년 8월 5일12intermediate

Context

올리브영 온라인몰은 2017년 런칭 후 코로나19 팬데믹 이후 매년 약 40% 성장을 기록했으나, 인프라는 이에 따라가지 못했다. 올영세일 기간에 평시 대비 약 10배의 트래픽 유입으로 인해 1만 5천 명의 고객이 150분 대기하는 사태가 발생했으며, 고정 규모의 인프라로는 변동하는 트래픽을 감당할 수 없었다.

Technical Solution

  • 모놀리식 아키텍처에서 MSA(Microservice Architecture)로 전환: 클라우드 인프라 도입으로 언제든지 증설 가능한 유연한 구조 구축
  • Datadog을 모니터링 도구로 도입: 인프라, 애플리케이션, 비즈니스를 통합하여 관찰하고 컴포넌트 간 유기적 관계를 시각화
  • APM(Application Performance Monitoring)에서 시작: RPS(Request per Second), 서버 CPU 사용률 등 성능 지표 중심으로 초기 대시보드 구성
  • 로그 기반 비즈니스 메트릭 추가: Datadog의 Log Parser를 이용해 결제 정보, 판매 상품 정보를 로그에서 추출하여 대시보드에 시각화
  • 다중 도구 통합: Google Analytics, Jennifer(APM), Tableau 데이터를 Datadog으로 통합하여 단일 대시보드에서 실시간 모니터링
  • 조직별 대시보드 구성: SRE, 결제팀, SCM, 오프라인 매장 담당 등 30개 이상의 도메인별 대시보드 운영
  • 사무실 모니터 공시: TV를 통해 실시간 비즈니스 상태를 모든 직원이 확인 가능하도록 구성

Impact

아티클에는 명시된 정량적 성능 수치가 없다.

Key Takeaway

Datadog과 같은 통합 모니터링 도구를 단순 APM을 넘어 비즈니스 지표(판매량, 결제 건수, 트래픽 출처 등)와 인프라 지표를 함께 대시보드화하면, 개발팀·SRE·경영진이 동일한 실시간 데이터를 공유하며 데이터 기반 의사결정 문화를 형성할 수 있다.


클라우드 기반 마이크로서비스 아키텍처로 전환하는 조직에서 Datadog의 Log Parser 기능을 활용해 애플리케이션 로그에 포함된 비즈니스 이벤트(결제 완료, 상품 판매, 사용자 유입 채널)를 메트릭으로 변환하면, 인프라 성능 저하의 원인을 비즈니스 관점에서 즉시 파악하고 조직 전체의 통합된 의사결정을 가능하게 한다.

원문 읽기