A New Framework for Evaluation of Voice Agents (EVA)
ServiceNow가 음성 에이전트 평가를 위해 EVA 프레임워크를 개발해 작업 정확도(Accuracy)와 사용자 경험(Experience)을 동시에 측정하는 엔드-투-엔드 평가 체계 구축
AI 요약
Context
기존 음성 에이전트 평가 프레임워크들은 음성 인식, 대화 동역학, 작업 완수 등을 개별적으로 평가했으며, 실제 배포 환경에서 정확도와 사용자 경험이 어떻게 상충하는지 측정하는 통합 평가 수단이 없었다.
Technical Solution
- Bot-to-bot 음성 상호작용 시뮬레이션: User Simulator(TTS 기반 발화자 역할)와 Voice Agent(Pipecat 프레임워크 기반)가 실제 오디오를 통해 다중 턴 대화 수행
- 음성 에이전트 아키텍처 지원 확대: Cascade 구조(STT → LLM → TTS)와 Audio-Native 모델(S2S, S2T→TTS) 모두 평가 가능
- Tool Executor를 통한 결정론적 도구 응답: Python 함수 기반 커스텀 도구 엔진이 시나리오별 데이터베이스를 동적으로 쿼리 및 수정
- 자동화된 검증 파이프라인: Validators가 대화 완성도와 사용자 행동 재현성을 검증해 시뮬레이터 오류 제거(사후 인간 검수 불필요)
- 이중 점수 체계: EVA-A(정확도)와 EVA-X(경험)로 작업 성공과 대화 품질을 독립적으로 측정하는 메트릭 스위트 제공
- 항공 도메인 초기 데이터셋: 항공편 재예약, 취소 처리, 바우처 등 50개 시나리오로 구성된 벤치마크 데이터 공개
Impact
기존 프레임워크 대비 최초로 작업 성공과 대화 경험을 결합 평가하며, 20개의 Cascade 및 Audio-Native 시스템 벤치마크 결과를 제공. 정확도와 경험 간 일관된 상충 관계(Accuracy-Experience tradeoff) 발견(작업 완수에 우수한 에이전트가 사용자 경험에서는 부족한 경향).
Key Takeaway
음성 에이전트 평가는 개별 컴포넌트(STT, LLM, TTS) 성능 측정만으로는 불충분하며, 초기 사용자 요청부터 다단계 도구 조율을 거쳐 최종 작업 완료까지 전체 대화 흐름을 실제 오디오 환경에서 모의 테스트하는 엔드-투-엔드 평가가 필수다. 정확도와 사용자 경험의 상충관계를 명시적으로 측정하면 음성 에이전트 설계 시 의도적인 트레이드오프 결정이 가능해진다.
실천 포인트
음성 에이전트를 개발하는 팀에서 EVA의 Bot-to-bot 아키텍처를 도입하면 STT 오류 복구 능력, 응답 지연이 대화 흐름에 미치는 영향, 다중 옵션 제시 시 인지 부하 등 실제 배포 환경의 문제를 개발 단계에서 조기 발견할 수 있다. 특히 정확도(EVA-A)와 경험(EVA-X) 점수를 분리 추적하면 모델 개선 시 어느 차원에 최적화를 집중할지 데이터 기반 결정이 가능해진다.