피드로 돌아가기
Feature Flags at Scale: Designing a Distributed Control System for Production Behavior
Dev.toDev.to
Infrastructure

Sub-ms latency 달성을 위한 Distributed Control Plane 기반 Feature Flag 설계

Feature Flags at Scale: Designing a Distributed Control System for Production Behavior

SAI RAM2026년 6월 20일19advanced

Context

단순 KV Lookup 방식의 Feature Flag는 트래픽 증가 시 RPC 호출로 인한 p99 Tail Latency 증가와 가용성 결합 문제를 야기함. 특히 수천 개의 Flag가 누적되는 Flag Sprawl 현상과 관리 부재로 인한 대규모 장애 위험이 상존하는 구조적 한계가 존재함.

Technical Solution

  • Request Path에서 RPC를 완전히 제거하고 로컬 캐시 스냅샷을 활용하는 Local Evaluation 구조 채택
  • Control Plane(강한 일관성)과 Data Plane(최종 일관성)을 분리하여 설정 변경의 안전성과 전파 속도를 동시에 확보
  • Push-based Distribution 방식을 통한 Thundering Herd 문제 방지 및 효율적인 상태 동기화 구현
  • Hash(flagKey + userId) % 100 기반의 Deterministic Rollout 설계를 통해 모든 노드에서 동일한 사용자 경험 보장
  • Fail-closed/Fail-open 정책을 Flag 생성 시점에 명시하여 제어 평면 장애 시의 Graceful Degradation 경로 정의
  • Evaluation마다 구조화된 Exposure Event를 생성하여 실험 데이터의 정밀한 분석 및 Regression 추적 기반 마련

- Request Path 내의 모든 동기식 RPC 호출 제거 여부 검토 - Flag 생성 시 소유자(Owner)와 만료일(Expiry Date) 강제 지정 프로세스 도입 - 전역 Kill Switch 작동 시 코드 변경 없이 60초 이내 반영 가능한지 검증 - Flag 100% 적용 시 자동으로 제거 PR을 생성하는 Cleanup 자동화 파이프라인 구축

원문 읽기