피드로 돌아가기
Dev.toAI/ML
원문 읽기
Realtime API 도입으로 Latency를 1.5s에서 350ms로 단축한 AI Phone Agent 설계
I built an AI phone receptionist in 3 weeks. Here's what nobody tells you.
AI 요약
Context
기존 STT-LLM-TTS 파이프라인 기반의 음성 서비스는 600-1200ms의 고정 지연 시간으로 인해 사용자 이탈 발생. 특히 Noise 환경과 Interruption 처리에 취약하여 실시간 대화의 자연스러움을 확보하지 못한 한계 노출.
Technical Solution
- OpenAI Realtime API 기반의 Native Speech-to-Speech 구조 채택을 통한 Pipeline Latency 제거
- LiveKit WebRTC Audio Routing 도입으로 Twilio Media Stream의 Buffering 이슈 해결 및 오디오 경로 최적화
- Voice Activity Detection(VAD) 기반의
cancelResponse로직 구현을 통한 실시간 Interruption 처리 및 대화 흐름 제어 - Structured Prompt 기반의 'Brain File'과 Function Calling 도구 설계를 통한 도메인 지식 주입 및 예약/에스컬레이션 액션 자동화
- Twilio Webhook과 LiveKit Token 기반의 세션 핸드오프 구조를 통해 Call Session의 상태 관리 및 추적 가능성 확보
실천 포인트
- STT/TTS 개별 단계 대신 Native Speech-to-Speech API 검토 - VAD를 활용한 실시간 사용자 발화 감지 및 에이전트 응답 중단 로직 구현 - LLM Hallucination 방지를 위한 비즈니스 가이드라인 및 에스컬레이션 경로 명시 - 엣지 케이스(외국어, 소음, 스피커폰 등) 대응을 위한 상세 체크리스트 작성 및 로그 분석 체계 구축