피드로 돌아가기
Dev.toInfrastructure
원문 읽기
99.9% 가용성이란 시스템이 연간 8시간 46분 정지해도 SLA를 충족한다는 현장 점검 결과를 제시한다
The Nines Are Lying to You: What 99.9% Uptime Actually Costs
AI 요약
Context
클라우드 서비스의 99.9% uptime SLA가,实际上 연간 8시간 46분 downtime을 허용함을 설명한다. 3나인에서 4나인으로 전환 시 downtime이 10배 감소하지만 비용은 선형이 아닌 지수적으로 증가한다.
Technical Solution
- [가동률 계층] → [추천 사용 사례] 형태로 분류한다. 2나인(99%)은 개발/스테이징 환경, 3나인(99.9%)은 일반 SaaS 제품, 4나인(99.99%)은 이커머스나 의료 시스템, 5나인(99.999%)은 금융 거래 시스템에 적합하다.
- [복합 가용성 함정] → [서비스 수가 증가할수록 전체 가동률이 곱셈으로 하락]한다. 3개 서비스 각각 99.9%라도 조합 시 99.7% 수준으로 downtime이 3배 증가한다.
- [Error Budget 개념] → Google SRE 팀의 방법론을 도입한다. 99.9% 월간 SLO 기준 43.2분의 예산이 존재하며, 15분 Incident 발생 시 예산의 1/3이 소진된다.
- [Cost-Benefit 분석] → 내부 대시보드에 4나인을 위해 월 $200K AWS 비용을 지출하는 비효율적 사례를 제시한다.
- [Real downtime cost] → 2024년 산업 평균 분당 $14,056, AWS US-EAST-1 2025 사고 시 시간당 $75M 규모를 언급한다.
Impact
1나인 증가당 downtime 10배 감소, 비용은 상이한 수준으로 증가한다. 3개 의존성 조합 시 downtime 3배 확대된다.
Key Takeaway
Uptime 숫자(나인)가 보여주는 값은 실질 downtime과 비용 구조를 정확히 반영하지 않는다. 팀의 실제 비즈니스 요구사항에서 출발하여 적절한 SLO를 결정해야 한다.
실천 포인트
프로덕션 서비스를 운영하는 팀에서 SLA 설계 시 내부 도구에는 2나인, 일반 SaaS에는 3나인, 매출 직접 연관 시스템에는 4나인 이상을 명확히 구분하여 불필요한 인프라 비용 지출을 방지하는 방식이 필요하다