피드로 돌아가기
신뢰성 향상을 위한 SLO/SLI 도입 3편 - 서비스 적용 사례
LINE Engineering
DevOps

신뢰성 향상을 위한 SLO/SLI 도입 3편 - 서비스 적용 사례

CUJ 기반 SLO 설계를 통한 신뢰성 정량화 및 리소스 최적화

2026년 4월 22일9intermediate

Context

서비스 안정성에 대한 주관적 판단으로 인한 의사결정의 불확실성 존재. 정량적 지표 부재로 인한 신뢰성 확보와 신규 기능 출시 사이의 리소스 배분 갈등 발생.

Technical Solution

  • 사용자 경험 중심의 Critical User Journey(CUJ) 식별을 통한 핵심 서비스 기능 정의
  • 측정 위치(Gateway, FE, BE) 및 대표 API 선정을 통한 정밀한 SLI 측정 체계 구축
  • 99.9 퍼센타일 응답 시간 500ms 미만 및 99.999% 응답 성공률 등 명확한 SLI Criterion 수립
  • 28일 주기 기반의 현실적인 SLO 타깃 설정을 통한 서비스 안정성 목표 수치화
  • Error Budget 개념을 도입하여 신규 기능 출시 속도와 시스템 안정성 간의 트레이드오프 제어
  • 상태별 색상 기반의 시각화 대시보드를 통한 전사적 신뢰성 가시성 확보

Impact

  • 메시지 전송 기능 기준 p99.9 응답 시간 500ms 미만 및 성공률 99.999% 목표 설정
  • 28일 주기(총 40,320분) 내 40,280분 이상의 SLI 달성 목표 관리

1. 모든 기능을 측정하기보다 CUJ 중심의 핵심 서비스 우선 선정 여부 확인

2. 측정 가능하고 명확한 기준(Criterion)이 없는 지표는 과감히 제외하거나 별도 지표 설계

3. Error Budget 잔여량에 따른 릴리스 사이클 조정 및 리소스 투입 우선순위 결정 프로세스 수립

4. 이해관계자 간 합의된 SLO 타깃 설정으로 운영 책임 공유 문화 조성

원문 읽기