피드로 돌아가기
InfoQInfrastructure
원문 읽기
1.08억 명 동시 접속 대응을 위한 Human Infrastructure 및 Telemetry Hot Path 설계
Netflix Scales "Human Infrastructure" to Manage Global Live Operations
AI 요약
Context
기존 비동기 방식의 VOD 전달 체계로는 예측 불가능한 Live 이벤트의 실시간성 확보에 한계 직면. 표준 자동화 알고리즘만으로는 특이 케이스(Edge Case) 발생 시 즉각적인 컨텍스트 파악 및 대응이 불가능한 구조적 제약 존재.
Technical Solution
- Telemetry Hot Path 구축을 통한 핵심 메트릭의 저지연 스트리밍 처리
- 데이터 완전성보다 응답 속도를 우선순위로 둔 관찰 가능성(Observability) 파이프라인 분리
- Start-up Failure 및 Rebuffer Rate 등 핵심 지표 중심의 필터링으로 탐지 시간 단축
- 자동화 프로토콜을 우회하여 트래픽 제어 및 리전별 Capacity 재분배가 가능한 Live Operations Centre 도입
- 트래픽 폭주 시 사용자 접근성 유지를 위한 Validation Window 기반의 Hybrid Authorization 모델 적용
- 시스템 장애 시 서비스 가용성 확보를 위한 Graceful Degradation 전략 수립
실천 포인트
1. 핵심 지표와 일반 로그의 파이프라인을 분리하여 Critical Path의 지연 시간 최소화 여부 검토
2. 자동화 로직이 해결 못 하는 Edge Case 대응을 위한 수동 Override 메커니즘 설계
3. 트래픽 스파이크 발생 시 핵심 기능만 유지하는 Graceful Degradation 시나리오 정의