피드로 돌아가기
QA가 서버를 죽여본 이유 – Host Level 카오스 엔지니어링 테스트
올리브영 테크블로그올리브영 테크블로그
Infrastructure

QA가 서버를 죽여본 이유 – Host Level 카오스 엔지니어링 테스트

QA가 실제 인프라를 차단하며 발견한 시스템 로그 정상 versus 고객 경험 마비 간극

2026년 3월 30일17intermediate

Context

MSA 구조에서 각 서비스 파편화로 인해 특정 연관 서비스 장애 시 우리 서비스에 미치는 영향 파악이 어렵다. 기존에는 개발 단계에서 로그와 모니터링만으로 복원력을 검증했기에, 시스템 관점에서는 복구 완료라도 고객 관점에서는 데이터 꼬임이나 중복 결제 위험이 존재했다.

Technical Solution

  • DB 장애 시뮬레이션 → 증정품 포함 주문 시나리오로 결제는 완료되나 증정 정보 누락 버그 발견
  • 메시지 큐 장애 시뮬레이션 → 결제 버튼 대기 후 504 에러 발생했으나 주문 완료 상태 기록 확인
  • 캐시 서버 장애 시뮬레이션 → TTL 5분 경과 후 검색 불가, 카테고리 오류, 메인 화면 부하 발생 확인
  • DB 완전 차단 및 Failover 두 시나리오로 나누어 테스트
  • 복구 후 데이터 정합성 검증流程 수립

Impact

9개 주요 버그 발견, 4개 즉시 개선, 5개 2026년 로드맵 반영

Key Takeaway

시스템 로그에 '정상'으로 찍혀도 고객이 체감하는 경험은 장애일 수 있으므로, QA가 고객 시나리오 기반으로 실제 화면을 확인해야 한다.


커머스 서비스에서 AWS FIS나 Gremlin 같은 카오스 엔지니어링 도구로 인프라 장애 시나리오를 QA 환경에서 실행 시 고객 관점 화면 검증으로 예상 못한 간극을 메울 수 있다

원문 읽기