STT 최적화 및 하이브리드 VAD 도입으로 Latency 10s → 1.5s 단축

How We Built an AI Voice Agent: Backend Architecture Guide

Platon2026년 4월 15일18분advanced

AI 요약

Context

B2B 대규모 아웃바운드 콜 검증을 위한 실시간 AI Voice Agent 구축 과정. Telephony 특유의 8kHz 저음질 환경과 배경 소음으로 인한 STT 오인식 및 높은 Round-trip Latency가 주요 병목 지점으로 작용.

Technical Solution

Whisper 대비 WER이 3~4배 낮은 Deepgram Nova-3 채택을 통한 고정밀 Transcription 확보
Silero VAD와 Deepgram 내장 VAD를 병행 사용하는 Hybrid Approach로 침묵 구간 판정 정확도 향상
단순 API 체이닝의 지연 시간을 해결하기 위해 빈번한 응답에 Pre-scripted phrases를 적용하여 체감 Latency 500ms 미만 구현
IVR 루프 및 호출 유형 판별을 위해 Regex에서 LLM을 거쳐 Fine-tuned BERT 신경망으로 분류 모델 고도화
AWS Lambda의 실행 시간 제한(15분) 문제를 해결하기 위해 Kubernetes 기반 Karpenter Autoscaling 구조로 인프라 전환
고유 명사 인식률 제고를 위한 Keyword Boosting 설정을 통해 비즈니스 컨택 포인트 검증 정확도 확보

실천 포인트

- Telephony 환경(G.711)에서는 범용 모델보다 저음질 및 소음 특화 STT 엔진 검토 - 실시간성 확보를 위해 모든 응답을 생성하기보다 정적 응답(Pre-scripted)과 동적 응답을 분리 설계 - VAD 오작동으로 인한 인터럽트 문제를 방지하기 위해 복수의 VAD 모델을 교차 검증하는 로직 도입 - AI Voice Agent의 실제 운영 비용 산정 시 오케스트레이션 비용 외에 개별 모델 API 호출 비용을 정밀하게 합산

태그

#Latency Optimization #BERT #STT #Kubernetes #VAD

원문 읽기