피드로 돌아가기
Building a Real-Time AI Voice Agent with OpenAI Realtime API and Next.js
Dev.toDev.to
AI/ML

Latency 800ms 이하 달성을 위한 OpenAI Realtime API 기반 스트리밍 아키텍처 설계

Building a Real-Time AI Voice Agent with OpenAI Realtime API and Next.js

Loxia AI2026년 6월 29일5advanced

Context

기존 Text-based 챗봇의 Request-Response 구조로 인한 높은 지연 시간과 음성 연속성 부족 문제 직면. 단순한 STT-LLM-TTS 파이프라인을 넘어 인간에 가까운 실시간 상호작용을 구현하기 위한 저지연 루프 설계 필요.

Technical Solution

  • Web Audio API와 WebSocket 기반의 오디오 청크 스트리밍 구조를 통한 데이터 전송 지연 최소화
  • OpenAI Realtime API의 modalities 설정을 통한 Text/Audio 통합 스트리밍 처리로 파이프라인 단계 축소
  • Edge Deployment 기반의 WebSocket Gateway 배치를 통한 사용자-서버 간 네트워크 홉 감소
  • Function Calling 레이어 통합으로 단순 대화를 넘어 외부 CRM 및 Booking API와 연동되는 실행 가능한 에이전트 구현
  • 전체 대화 이력 대신 요약된 상태와 구조화된 Context Injection 방식을 통한 메모리 효율성 및 추론 속도 확보
  • Transcription, Reasoning, TTS를 병렬로 처리하는 Parallel Pipeline 설계를 통한 체감 대기 시간 단축

- Web Audio API의 ScriptProcessor 또는 AudioWorklet을 통한 오디오 청크 단위 전송 구현 검토 - Cold Start 방지를 위한 Pre-warmed Session 전략 수립 - Redis/Kafka를 활용한 오디오 버퍼링 큐 도입으로 트래픽 급증 시 안정성 확보 - Sticky Session 또는 Session ID 라우팅을 통한 상태 유지형 WebSocket 서버 확장 설계

원문 읽기