피드로 돌아가기
올리브영 테크블로그DevOps
원문 읽기
올리브영 QA는 Datadog을 어떻게 활용하고 있을까?
올리브영 QA팀이 Datadog의 APM 로그, RUM, Synthetics를 활용해 배포 전 잠재적 이슈 조기 발견 및 운영 중 장애 대응 시간 단축
AI 요약
Context
QA팀이 운영 환경의 이슈를 사후에 대응하거나 간헐적인 문제를 재현하지 못해 개발자에게 정보 전달이 어려웠다. 또한 배포 후 신규 오류나 오류 빈도 증가를 빠르게 감지할 수 없었다.
Technical Solution
- APM 로그 모니터링: 서비스별 호출 기록과 오류 로그를 수집하고 오류 빈도수가 평시보다 높아지면 Slack 알람 발송
- 커스텀 로그 파싱: Python으로 API 및 페이지 Health Check, 성능 로그를 생성하고 Log Pipelines + Processor를 사용해 정규식(%{date}, %{word:level}, %{data::keyvalue} 등)으로 파싱 후 대시보드화
- RUM Error Tracking: 운영 및 QA 서버의 실사용자 오류를 자동 추적하고 신규/급증 오류 발생 시 배포 전 경고
- RUM Sessions Explorer: 오류 발생 당시 사용자의 액션 시퀀스, 클릭 버튼, 페이지 이동 흐름을 재생하여 오류 재현 및 영향도 판단
- Synthetics: PC 플랫폼 자동화 테스트로 정상 유무 판단 및 성능 수집
- 로그 수집 비율 제어: 일반 사용자는 샘플링하고 특정 내부 테스터의 로그만 100% 수집하여 RUM 비용 최적화
Impact
아티클에 정량적 수치(응답 시간 단축, 오류 감지 시간 등)가 기재되지 않음.
Key Takeaway
QA 조직이 SRE 도구인 Datadog을 적절히 구성(로그 파싱, 알람, RUM 세션 분석)하면 배포 전 신규 오류를 조기에 발견하고 간헐적 이슈 재현 시 사용자 동작 흐름을 객관적 데이터로 전달할 수 있다.
실천 포인트
QA 조직에서 APM 로그 알람 + RUM Sessions Explorer 조합을 도입하면 배포 후 신규 오류를 Slack으로 즉시 통지받고, 오류 당시의 사용자 액션 시퀀스를 시각적으로 확인하여 개발자 할당까지 필요한 정보 수집 시간을 단축할 수 있다.