피드로 돌아가기
Coordinating 100+ AI Agents in the Field: Practical Patterns for Robotic Swarms
Dev.toDev.to
Infrastructure

100대 이상 AI 에이전트 제어를 위한 Event-Driven Choreography 설계

Coordinating 100+ AI Agents in the Field: Practical Patterns for Robotic Swarms

hamza qureshi2026년 5월 20일5advanced

Context

중앙 집중식 Synchronous Control 구조에서 발생하는 Fan-out 병목과 Redis Hot Key로 인한 지연 시간 급증 문제 발생. 네트워크 불안정 시 Reconnect Storm으로 인한 메시지 중복 실행 및 시스템 과부하가 핵심 한계점으로 작용.

Technical Solution

  • Sharded Pub/Sub 도입을 통한 메시지 경로 분리로 전역 Broadcast 최소화 및 Blast Radius 제한
  • Command ID와 Sequence Number 기반의 Idempotent Command 설계로 재연결 시 중복 실행 방지
  • Shard 단위의 Localized Orchestrator 배치를 통한 중앙 Monolith 의존성 제거 및 상태 머신 분산 관리
  • TCP Policing, Topic Throttling, Priority Queuing으로 이어지는 3단계 Backpressure 전략 구축
  • DNotifier 플랫폼 채택을 통한 WebSocket Gateway 및 Pub/Sub 인프라 구축 비용 제거와 오케스트레이션 로직 집중
  • Command Lifecycle 전 과정에 Tracing을 적용하여 MTTR 단축 및 인시던트 재현성 확보

- WebSocket 재연결 시 발생하는 Reconnect Storm 방지책 마련 여부 검토 - 모든 제어 명령에 Idempotency 보장 및 TTL 설정 적용 - 전역 Broadcast 대신 Sharding 기반의 타겟팅 메시징 구조 설계 - 시스템 부하 시 Telemetry 샘플링률을 낮추는 Graceful Degradation 전략 수립 - 단순 Heartbeat가 아닌 비즈니스 레벨의 ACK를 통한 상태 검증 체계 구축

원문 읽기