피드로 돌아가기
Dev.toAI/ML
원문 읽기
Latency 800ms 이하 달성을 위한 OpenAI Realtime API 기반 스트리밍 아키텍처 설계
Building a Real-Time AI Voice Agent with OpenAI Realtime API and Next.js
AI 요약
Context
기존 Text-based 챗봇의 Request-Response 구조로 인한 높은 지연 시간과 음성 연속성 부족 문제 직면. 단순한 STT-LLM-TTS 파이프라인을 넘어 인간에 가까운 실시간 상호작용을 구현하기 위한 저지연 루프 설계 필요.
Technical Solution
- Web Audio API와 WebSocket 기반의 오디오 청크 스트리밍 구조를 통한 데이터 전송 지연 최소화
- OpenAI Realtime API의 modalities 설정을 통한 Text/Audio 통합 스트리밍 처리로 파이프라인 단계 축소
- Edge Deployment 기반의 WebSocket Gateway 배치를 통한 사용자-서버 간 네트워크 홉 감소
- Function Calling 레이어 통합으로 단순 대화를 넘어 외부 CRM 및 Booking API와 연동되는 실행 가능한 에이전트 구현
- 전체 대화 이력 대신 요약된 상태와 구조화된 Context Injection 방식을 통한 메모리 효율성 및 추론 속도 확보
- Transcription, Reasoning, TTS를 병렬로 처리하는 Parallel Pipeline 설계를 통한 체감 대기 시간 단축
실천 포인트
- Web Audio API의 ScriptProcessor 또는 AudioWorklet을 통한 오디오 청크 단위 전송 구현 검토 - Cold Start 방지를 위한 Pre-warmed Session 전략 수립 - Redis/Kafka를 활용한 오디오 버퍼링 큐 도입으로 트래픽 급증 시 안정성 확보 - Sticky Session 또는 Session ID 라우팅을 통한 상태 유지형 WebSocket 서버 확장 설계