피드로 돌아가기
올리브영 테크블로그DevOps
원문 읽기
전국 3,500대 POS 실시간 모니터링 구축기
올리브영이 Datadog을 도입해 3,500대 POS 실시간 모니터링을 구축하여 문제 탐지 시간을 4분 30초에서 59초로 76% 단축
AI 요약
Context
전국 1,370개 매장 3,500대 POS 장비는 오프라인 폐쇄망 환경에서 운영되며 네트워크가 간헐적으로 끊긴다. 기존에는 매장 현장 제보 후에야 문제를 인지했고, 한 대 확인에 평균 5분 이상 소요되어 복수 매장 동시 장애 대응이 불가능했다. 장비 오류 → 고객 결제 지연 → 직원 대응이라는 악순환이 반복되었다.
Technical Solution
- Datadog Agent를 3,000대 POS에 설치: 폐쇄망(POS) → 프록시 서버 → Public 망(Datadog 서버) 구조로 네트워크 아키텍처 설계
- 비표준 로그를 JSON 기반으로 정비: 기존 텍스트 로그를 구조화된 JSON 포맷으로 변환해 파싱 및 시각화 가능하도록 개선
- 선별 수집 구조 적용: 사용자 이벤트와 오류 로그만 수집 대상으로 선정하고 당일 로그만 남겨 Agent 리소스 최적화 (CPU 0.5% 이하, 메모리 120MB 이하)
- 원격 관리 솔루션의 스크립트 실행 기능 활용: Datadog Agent 설치 스크립트 작성 및 .yaml 설정 파일 자동 배포로 3,500대 장비 설치 자동화
- 매장별 POS 식별 체계 정립: Host 값을 매장과 POS 고유 키로 설정해 로그 발생지를 명확히 구분
- 테스트 → 일부 매장 → 전국 확산 점진적 적용: 새벽 영업 외 시간대에 분산 설치 진행
- Slack 연동 실시간 알람 시스템 구축: 오류 발생 시 즉시 알림 전송 및 정상 복구까지 자동 추적
Impact
- 문제 탐지 시간: 4분 30초 → 59초 (76% 단축)
- 사전 대응 건수: 월 0건 → 월 3건 이상 (무한대 증가)
- 로그 품질 향상으로 오류 로그 정확도 상승 및 문제 원인 파악 속도 개선
- 네트워크, Database, OS 관련 문제를 사후 대응에서 사전 감지로 전환
Key Takeaway
오프라인 분산 환경의 POS 같은 폐쇄망 시스템에 클라우드 모니터링을 적용할 때는 프록시 계층으로 네트워크 격리를 유지하고, 로그 포맷 표준화 및 선별 수집으로 에이전트 부하를 최소화해야 한다. 이를 통해 반응형 운영에서 예방 중심 운영으로 패러다임을 전환할 수 있다.
실천 포인트
오프라인 리테일 환경에서 폐쇄망 장비들을 모니터링해야 할 때, 중간에 프록시 서버를 두고 로그를 JSON으로 표준화한 후 필요한 로그만 선별 수집하면 에이전트 부하(CPU 0.5% 이하, 메모리 120MB 이하) 내에서 실시간 모니터링을 구축할 수 있다. 설치 자동화를 위해 기존 원격 관리 솔루션의 스크립트 기능을 활용하면 수천 대 장비의 대규모 배포도 효율적으로 진행할 수 있다.