피드로 돌아가기
Dev.toInfrastructure
원문 읽기
원인 불명의 검색 성능 저하, Manticore 모니터링 스택으로 해결
Why monitoring your search engine matters: Manticore ➡ Prometheus ➡ Grafana
AI 요약
Context
로그상 에러가 없으나 검색 속도가 점진적으로 느려지는 성능 저하 현상 발생. CPU 사용률은 정상 범위 내에 머물러 정확한 병목 지점 파악에 어려움. 가시성 부족으로 인한 추측성 진단의 한계 노출.
Technical Solution
- Manticore, Prometheus, Grafana를 조합한 시계열 데이터 수집 및 시각화 파이프라인 구축
- p95, p99 Percentile 기반의 Search Latency 측정으로 평균값에 가려진 꼬리 지연 시간 식별
- Total RSS와 Anon RSS를 분리 관찰하여 OS 파일 캐시와 엔진 내부 데이터 구조의 메모리 점유율 구분
- Worker Utilization과 Queue Pressure의 상관관계 분석을 통한 노드 포화 상태 조기 감지
- Open File Descriptors(FDs) 모니터링을 통해 인덱스 파일 과다 오픈으로 인한 OS 제한 도달 방지
- 21종의 프로덕션 전용 Alert 설정을 통한 이상 징후 실시간 알림 체계 마련
Key Takeaway
단순한 리소스 지표보다 서비스 특성에 맞는 세부 메트릭(Percentile Latency, Anon Memory 등)의 조합이 장애의 근본 원인을 찾는 핵심 설계 원칙임.
실천 포인트
검색 엔진의 성능 저하 시 Total RSS보다 Anon RSS의 급증 여부를 우선 확인하여 내부 데이터 구조의 메모리 누수나 쿼리 부하를 진단할 것