Realtime API 도입으로 Latency를 1.5s에서 350ms로 단축한 AI Phone Agent 설계

I built an AI phone receptionist in 3 weeks. Here's what nobody tells you.

Abbas Imran2026년 5월 12일7분intermediate

AI 요약

Context

기존 STT-LLM-TTS 파이프라인 기반의 음성 서비스는 600-1200ms의 고정 지연 시간으로 인해 사용자 이탈 발생. 특히 Noise 환경과 Interruption 처리에 취약하여 실시간 대화의 자연스러움을 확보하지 못한 한계 노출.

Technical Solution

OpenAI Realtime API 기반의 Native Speech-to-Speech 구조 채택을 통한 Pipeline Latency 제거
LiveKit WebRTC Audio Routing 도입으로 Twilio Media Stream의 Buffering 이슈 해결 및 오디오 경로 최적화
Voice Activity Detection(VAD) 기반의 cancelResponse 로직 구현을 통한 실시간 Interruption 처리 및 대화 흐름 제어
Structured Prompt 기반의 'Brain File'과 Function Calling 도구 설계를 통한 도메인 지식 주입 및 예약/에스컬레이션 액션 자동화
Twilio Webhook과 LiveKit Token 기반의 세션 핸드오프 구조를 통해 Call Session의 상태 관리 및 추적 가능성 확보

실천 포인트

- STT/TTS 개별 단계 대신 Native Speech-to-Speech API 검토 - VAD를 활용한 실시간 사용자 발화 감지 및 에이전트 응답 중단 로직 구현 - LLM Hallucination 방지를 위한 비즈니스 가이드라인 및 에스컬레이션 경로 명시 - 엣지 케이스(외국어, 소음, 스피커폰 등) 대응을 위한 상세 체크리스트 작성 및 로그 분석 체계 구축

태그

#Function Calling #Latency Optimization #Realtime API #Voice Activity Detection #WebRTC

원문 읽기