피드로 돌아가기
Dev.toAI/ML
원문 읽기
STT 최적화 및 하이브리드 VAD 도입으로 Latency 10s → 1.5s 단축
How We Built an AI Voice Agent: Backend Architecture Guide
AI 요약
Context
B2B 대규모 아웃바운드 콜 검증을 위한 실시간 AI Voice Agent 구축 과정. Telephony 특유의 8kHz 저음질 환경과 배경 소음으로 인한 STT 오인식 및 높은 Round-trip Latency가 주요 병목 지점으로 작용.
Technical Solution
- Whisper 대비 WER이 3~4배 낮은 Deepgram Nova-3 채택을 통한 고정밀 Transcription 확보
- Silero VAD와 Deepgram 내장 VAD를 병행 사용하는 Hybrid Approach로 침묵 구간 판정 정확도 향상
- 단순 API 체이닝의 지연 시간을 해결하기 위해 빈번한 응답에 Pre-scripted phrases를 적용하여 체감 Latency 500ms 미만 구현
- IVR 루프 및 호출 유형 판별을 위해 Regex에서 LLM을 거쳐 Fine-tuned BERT 신경망으로 분류 모델 고도화
- AWS Lambda의 실행 시간 제한(15분) 문제를 해결하기 위해 Kubernetes 기반 Karpenter Autoscaling 구조로 인프라 전환
- 고유 명사 인식률 제고를 위한 Keyword Boosting 설정을 통해 비즈니스 컨택 포인트 검증 정확도 확보
실천 포인트
- Telephony 환경(G.711)에서는 범용 모델보다 저음질 및 소음 특화 STT 엔진 검토 - 실시간성 확보를 위해 모든 응답을 생성하기보다 정적 응답(Pre-scripted)과 동적 응답을 분리 설계 - VAD 오작동으로 인한 인터럽트 문제를 방지하기 위해 복수의 VAD 모델을 교차 검증하는 로직 도입 - AI Voice Agent의 실제 운영 비용 산정 시 오케스트레이션 비용 외에 개별 모델 API 호출 비용을 정밀하게 합산