피드로 돌아가기
Dev.toAI/ML
원문 읽기
ElevenLabs와 n8n 기반 이탈리아어 Voice AI로 예약 성공률 89% 달성
Building a Voice AI Agent in Italian with ElevenLabs + n8n: Lessons From 200 Live Bookings/Month
AI 요약
Context
영어권 Voice AI 아키텍처를 이탈리아어 환경에 이식하며 발생하는 높은 Latency 민감도와 지역별 Accent 편차 문제를 해결해야 함. 기존의 분산 파이프라인(Whisper-GPT-TTS) 방식은 약 400ms의 추가 지연을 유발하여 사용자 이탈을 가속화하는 한계가 존재함.
Technical Solution
- Latency 최소화를 위해 ASR, Intent Routing, TTS가 통합된 ElevenLabs Conversational AI를 채택하여 파이프라인 단계 간 오버헤드 제거
- 이탈리아어 특유의 정서적 유대감을 반영한 'Social Warmup' 단계의 프롬프트 설계로 예약 완료율을 71%에서 89%로 향상
- n8n 기반의 셀프 호스팅 오케스트레이션 레이어를 통해 Postgres DB 조회 및 예약 쓰기 로직을 Webhook 형태로 분리 설계
- Mistral OCR과 n8n Cron Job을 결합하여 매일 PDF 메뉴판을 JSON으로 파싱 후 DB에 Upsert 하는 자동화 데이터 파이프라인 구축
- 전체 메뉴를 프롬프트에 삽입하는 대신
menu_lookupTool 함수를 통한 Dynamic Retrieval 구조를 설계하여 Context Window 최적화 및 비용 절감 - Twilio VoIP의 지역 번호 품질 및 기술 지원 대응력을 우선하여 통신 인프라 계층 선정
실천 포인트
- 다국어 Voice AI 설계 시 해당 언어의 평균 turn-taking 간격을 분석하여 Latency Target 설정 - State Machine 관리 비용을 줄이기 위해 가능한 통합 AI 서비스(Unified API) 검토 - 정적 프롬프트 대신 OCR-JSON-DB로 이어지는 자동 데이터 갱신 파이프라인 구축 - 복잡한 요청(대규모 예약, 특수 요청)에 대한 명확한 Escalation Rule을 시스템 프롬프트에 정의