피드로 돌아가기
InfoQInfoQ
AI/ML

WebSocket 도입을 통한 Agentic Workflow 지연 시간 40% 감소

OpenAI Introduces Websocket-Based Execution Mode to Reduce Latency in Agentic Workflows

Leela Kumili2026년 5월 7일3intermediate

Context

멀티 스텝 추론 과정에서 발생하는 반복적인 HTTP Request-Response 패턴으로 인한 네트워크 Round-trip Time 증가. 추론 속도 향상에 따라 전송 계층의 오버헤드가 전체 시스템의 지연 시간을 결정하는 주요 병목 지점으로 작용함.

Technical Solution

  • HTTP 기반 단발성 연결을 지속적인 Bidirectional Connection으로 교체하여 핸드셰이크 비용 제거
  • Tool Call 및 중간 추론 단계 간 상태 유지를 위한 Stateful Connection 구조 설계
  • 시스템 프롬프트와 Tool Definition의 사전 전송을 통한 연결 Warm-up 최적화
  • Event-Driven Design 패턴 적용으로 데이터 교환 효율성 및 응답성 극대화
  • Zero Data Retention(ZDR) 호환 설계를 통한 데이터 보안 및 개인정보 보호 유지
  • 전송 계층 최적화를 통해 모델 외부의 시스템 레벨 병목 현상을 구조적으로 해결

Impact

  • 초기 프로덕션 적용 결과 지연 시간 최대 40% 감소
  • 평균 1,000 TPS 유지 및 최대 4,000 TPS 버스트 처리 능력 확보
  • Vercel AI SDK 40%, Cline 멀티 파일 워크플로우 39%, Cursor 30% 성능 개선 확인

Key Takeaway

모델 자체의 성능 개선 외에도 전송 계층(Transport Layer)의 통신 패턴 최적화가 전체 AI 시스템의 End-to-End 성능을 결정짓는 핵심 요소임.


- 멀티 스텝 상호작용이 빈번한 워크플로우에서 HTTP 오버헤드 측정 및 WebSocket 전환 검토 - 연결 수명 주기 관리(Lifecycle Management) 및 고부하 상황의 Backpressure 처리 전략 수립 - 분산 시스템 내 Stateful Connection 도입에 따른 신뢰성 및 복구 메커니즘 설계 반영

원문 읽기