피드로 돌아가기
AWS Summit Seoul 2025 발표 후기 - 소중한 우리의 시간을 위한 클라우드 스케일링 자동화
올리브영 테크블로그올리브영 테크블로그
Backend

AWS Summit Seoul 2025 발표 후기 - 소중한 우리의 시간을 위한 클라우드 스케일링 자동화

올리브영이 트래픽 카테고리화와 비즈니스 지표 기반 모니터링으로 Auto Scaling의 3~5분 장애 대응 지연을 사전 증설 자동화로 해결

2025년 6월 25일11intermediate

Context

AWS Auto Scaling만으로는 광고 시작 2분 내 트래픽 2배 증가에 대응하기 어려웠다. Auto Scaling은 트래픽 증가 후 조건 충족까지 지연되고, 증설 완료까지 3~5분이 소요되며, 이 기간 동안 사용자가 10분 정도 장애를 경험했다. 월 10회 이상 발생하는 광고 유입과 계절성 트래픽(평소 대비 10배)으로 인한 예측 불가능한 스파이크가 핵심 문제였다.

Technical Solution

  • 트래픽을 5단계로 카테고리화: Low(야간), Normal(평상시), High(일반 광고), Very High(인플루언서 마케팅), Ultra High(대규모 세일) - 분당 결제 건수 기준
  • 증설 대상 선정: WAS, 웹서버, DB 계열만 선택하고 Serverless, CDN 같은 관리형 서비스는 제외
  • Google Calendar 연동 자동화: 예정된 이벤트를 '(H)' 프리픽스와 함께 등록하면 자동으로 해당 레벨로 증설
  • Slack 봇 기반 즉시 증설: 예정 외 증설 필요 시 슬랙에 '증설 카테고리: (V)Very High' 입력으로 바로 실행
  • 기술 스택: AWS Lambda, SQS, Google Calendar API, Slack API를 조합한 2~3일 개발 규모의 자동화 파이프라인
  • 비즈니스 대시보드 구축: Datadog 또는 Grafana로 분당 결제 건수, DB 커넥션 풀 등 핵심 KPI 실시간 모니터링
  • 위험 대응 원칙: DB 커넥션 풀 급증 감지 시 모든 가용 자원 즉시 투입으로 90% 이상의 장애 확률 사전 차단

Key Takeaway

Auto Scaling 같은 기술 도구보다 트래픽 분류, 핵심 지표 선정, 데이터 기반 의사결정이 선행되어야 효과적인 자동화가 가능하다. 시스템 지표(CPU, 메모리)만 보는 모니터링이 아닌 비즈니스 지표 중심의 관찰(Business Oriented Monitoring, BOM)이 안정적인 시스템 운영의 기초가 된다.


E-커머스나 마케팅 드리븐 서비스를 운영하는 팀에서 Google Calendar와 Slack 같은 기존 협업 도구를 활용해 AWS Lambda + SQS 기반의 스케줄링 자동화를 구축하면, 예측 가능한 트래픽 스파이크에 대해 반응 지연 없이 5분 이내에 증설을 완료할 수 있다. 동시에 분당 결제 건수나 DB 커넥션 풀 같은 비즈니스 기반 KPI를 중앙화된 대시보드에서 실시간 모니터링하면, 예측 불가능한 급증도 빠르게 감지하고 과잉 대응으로 장애를 예방할 수 있다.

원문 읽기
AWS Summit Seoul 2025 발표 후기 - 소중한 우리의 시간을 위한 클라우드 스케일링 자동화 | Devpick