피드로 돌아가기
InfoQInfrastructure
원문 읽기
Risk Adjusted Net Value 기반 Fleet 최적화로 효율성과 신뢰성 동시 확보
Presentation: How Netflix Shapes our Fleet for Efficiency and Reliability
AI 요약
Context
글로벌 서비스 특성상 다양한 디바이스 수요와 트래픽 변동성으로 인한 하드웨어 공급-수요 불균형 발생. 단순 리소스 사용률(Utilization) 중심의 효율성 접근은 장애 발생 시의 비즈니스 손실 비용을 간과하는 한계 존재.
Technical Solution
- Risk Adjusted Net Value 개념 도입을 통한 서비스 중요도별 차등적 리소스 할당 전략 수립
- 서비스 성격에 따라 Fallback 유무와 비즈니스 영향도를 분석하여 Loss Function을 정의하고 최적의 비용 지점 도출
- Latency-sensitive한 핵심 서비스는 Direct EC2에 배치하여 성능 일관성 확보
- Batch 및 비핵심 워크로드는 Multi-tenant Container 시스템에 배치하여 Fungibility 극대화
- Preemption 메커니즘을 활용하여 비핵심 워크로드 자원을 핵심 서비스로 즉시 재할당하는 구조 설계
- 실제 사용량 관찰 기반의 Right-sizing을 통해 컨테이너 Over-allocation 문제 해결
실천 포인트
- 서비스별 장애 시 비즈니스 손실 금액(Loss Function)을 수치화하여 리소스 우선순위 결정 - 워크로드 특성에 따라 Dedicated Instance(성능 우선)와 Shared Container(효율 우선)로 분리 배치 - 리소스 할당 시 예약 값과 실제 사용 값의 간극을 모니터링하여 Right-sizing 자동화 검토 - 우선순위가 낮은 작업에 Preemption 설정을 적용하여 Peak 시점의 자원 가용성 확보