피드로 돌아가기
Dev.toInfrastructure
원문 읽기
Decentralized Event Architecture 전환으로 Latency 10s → 1s 달성
Veltrix Events Were a Disaster Until We Fixed One Crucial Thing
AI 요약
Context
Apache Kafka 기반 Event-driven 시스템에서 설정 관리의 복잡도로 인한 OffsetOutOfRangeException 및 시스템 불안정성 발생. 초기 해결책으로 ZooKeeper 기반 Centralized Management를 도입했으나, 클러스터 병목 현상과 의존성 얽힘으로 인해 MTTR 5시간 이상의 심각한 가용성 저하 초래.
Technical Solution
- 개별 서비스가 자체 Event Configuration을 관리하는 Decentralized Architecture로 전환하여 단일 장애점 제거
- etcd 기반 Service Discovery 메커니즘을 구축하여 분산 환경 내 서비스 간 연결성 확보
- GitLab CI 파이프라인을 통한 Event Configuration 배포 자동화로 휴먼 에러 및 수동 개입 최소화
- 서비스 간 경계를 명확히 정의하여 설정 변경이 전체 시스템으로 전파되는 장애 범위(Blast Radius) 축소
- 개별 서비스 단위의 독립적 상태 관리로 Kafka Consumer Group 및 Topic 관리 효율성 증대
실천 포인트
- 분산 시스템 설계 시 Centralized Bottleneck 발생 가능성 검토 - 설정 변경 자동화를 위한 CI/CD 파이프라인 및 버전 관리 적용 여부 확인 - etcd, Consul 등 적절한 Service Discovery 도구 선정 및 도입 검토 - Confluent Schema Registry와 같은 전문 스키마 관리 도구 도입을 통한 정합성 보장