피드로 돌아가기
전국 3,500대 POS 실시간 모니터링 구축기
올리브영 테크블로그올리브영 테크블로그
DevOps

전국 3,500대 POS 실시간 모니터링 구축기

올리브영이 Datadog을 도입해 3,500대 POS 실시간 모니터링을 구축하여 문제 탐지 시간을 4분 30초에서 59초로 76% 단축

2025년 6월 27일12intermediate

Context

전국 1,370개 매장 3,500대 POS 장비는 오프라인 폐쇄망 환경에서 운영되며 네트워크가 간헐적으로 끊긴다. 기존에는 매장 현장 제보 후에야 문제를 인지했고, 한 대 확인에 평균 5분 이상 소요되어 복수 매장 동시 장애 대응이 불가능했다. 장비 오류 → 고객 결제 지연 → 직원 대응이라는 악순환이 반복되었다.

Technical Solution

  • Datadog Agent를 3,000대 POS에 설치: 폐쇄망(POS) → 프록시 서버 → Public 망(Datadog 서버) 구조로 네트워크 아키텍처 설계
  • 비표준 로그를 JSON 기반으로 정비: 기존 텍스트 로그를 구조화된 JSON 포맷으로 변환해 파싱 및 시각화 가능하도록 개선
  • 선별 수집 구조 적용: 사용자 이벤트와 오류 로그만 수집 대상으로 선정하고 당일 로그만 남겨 Agent 리소스 최적화 (CPU 0.5% 이하, 메모리 120MB 이하)
  • 원격 관리 솔루션의 스크립트 실행 기능 활용: Datadog Agent 설치 스크립트 작성 및 .yaml 설정 파일 자동 배포로 3,500대 장비 설치 자동화
  • 매장별 POS 식별 체계 정립: Host 값을 매장과 POS 고유 키로 설정해 로그 발생지를 명확히 구분
  • 테스트 → 일부 매장 → 전국 확산 점진적 적용: 새벽 영업 외 시간대에 분산 설치 진행
  • Slack 연동 실시간 알람 시스템 구축: 오류 발생 시 즉시 알림 전송 및 정상 복구까지 자동 추적

Impact

  • 문제 탐지 시간: 4분 30초 → 59초 (76% 단축)
  • 사전 대응 건수: 월 0건 → 월 3건 이상 (무한대 증가)
  • 로그 품질 향상으로 오류 로그 정확도 상승 및 문제 원인 파악 속도 개선
  • 네트워크, Database, OS 관련 문제를 사후 대응에서 사전 감지로 전환

Key Takeaway

오프라인 분산 환경의 POS 같은 폐쇄망 시스템에 클라우드 모니터링을 적용할 때는 프록시 계층으로 네트워크 격리를 유지하고, 로그 포맷 표준화 및 선별 수집으로 에이전트 부하를 최소화해야 한다. 이를 통해 반응형 운영에서 예방 중심 운영으로 패러다임을 전환할 수 있다.


오프라인 리테일 환경에서 폐쇄망 장비들을 모니터링해야 할 때, 중간에 프록시 서버를 두고 로그를 JSON으로 표준화한 후 필요한 로그만 선별 수집하면 에이전트 부하(CPU 0.5% 이하, 메모리 120MB 이하) 내에서 실시간 모니터링을 구축할 수 있다. 설치 자동화를 위해 기존 원격 관리 솔루션의 스크립트 기능을 활용하면 수천 대 장비의 대규모 배포도 효율적으로 진행할 수 있다.

원문 읽기