피드로 돌아가기
Veltrix Events Were a Disaster Until We Fixed One Crucial Thing
Dev.toDev.to
Infrastructure

Decentralized Event Architecture 전환으로 Latency 10s → 1s 달성

Veltrix Events Were a Disaster Until We Fixed One Crucial Thing

Lillian Dube2026년 5월 28일4intermediate

Context

Apache Kafka 기반 Event-driven 시스템에서 설정 관리의 복잡도로 인한 OffsetOutOfRangeException 및 시스템 불안정성 발생. 초기 해결책으로 ZooKeeper 기반 Centralized Management를 도입했으나, 클러스터 병목 현상과 의존성 얽힘으로 인해 MTTR 5시간 이상의 심각한 가용성 저하 초래.

Technical Solution

  • 개별 서비스가 자체 Event Configuration을 관리하는 Decentralized Architecture로 전환하여 단일 장애점 제거
  • etcd 기반 Service Discovery 메커니즘을 구축하여 분산 환경 내 서비스 간 연결성 확보
  • GitLab CI 파이프라인을 통한 Event Configuration 배포 자동화로 휴먼 에러 및 수동 개입 최소화
  • 서비스 간 경계를 명확히 정의하여 설정 변경이 전체 시스템으로 전파되는 장애 범위(Blast Radius) 축소
  • 개별 서비스 단위의 독립적 상태 관리로 Kafka Consumer Group 및 Topic 관리 효율성 증대

- 분산 시스템 설계 시 Centralized Bottleneck 발생 가능성 검토 - 설정 변경 자동화를 위한 CI/CD 파이프라인 및 버전 관리 적용 여부 확인 - etcd, Consul 등 적절한 Service Discovery 도구 선정 및 도입 검토 - Confluent Schema Registry와 같은 전문 스키마 관리 도구 도입을 통한 정합성 보장

원문 읽기