3개 도메인, 213개 시나리오 기반 Voice Agent 고정밀 벤치마크 구축

EVA-Bench Data 2.0: 3 Domains, 121 Tools, 213 Scenarios

2026년 6월 4일9분advanced

AI 요약

Context

Voice Agent의 성능 평가가 특정 도메인에 편중되어 실제 엔터프라이즈 환경의 다양한 워크플로우와 예외 상황을 반영하지 못하는 한계 존재. 특히 인증 프로세스와 비정형 사용자 의도 처리 과정에서의 잦은 실패를 정밀하게 측정할 수 있는 체계적인 평가 데이터셋의 부재함.

Technical Solution

SyGra 그래프 기반 파이프라인을 통한 User Goal, Database, Ground Truth의 Joint Generation 구조 설계로 데이터 간 정합성 확보
Simulator의 일관성 유지를 위해 User Goal을 Decision Tree 형태로 구조화하여 무작위성 배제 및 Reproducibility 구현
단일 의도, 최대 4개의 다중 의도, 권한 우회 및 오분류 시도를 포함한 Adversarial Call 시나리오를 통한 엣지 케이스 검증
실제 엔터프라이즈 API 스키마와 US Healthcare 정책(NPI, FMLA 등)을 반영한 도메인 특화 Realism 확보
OTP 기반 Elevation 등 실제 운영 환경의 인증 메커니즘을 시나리오 내 전략적으로 배치하여 인증 단계의 실패 지점 분석
GPT-5.4, Gemini 3.1 Pro, Claude Opus 4.6 등 Frontier Model을 통한 Solvability 검증으로 벤치마크의 타당성 확보

실천 포인트

- LLM 평가셋 구축 시 단순 텍스트 프롬프트 대신 Decision Tree 기반의 시뮬레이션 경로 설계 검토 - Happy-path 외에 unsatisfiable goals 및 Adversarial 시나리오를 최소 20% 이상 포함하여 모델의 강건성 측정 - 도메인 특화 벤치마크 설계 시 실제 산업 표준(예: 의료 NPI)과 API 스키마를 반영한 데이터 그라운딩 적용

태그

#Reproducibility #Benchmark #Decision Tree #Synthetic Data Generation #Voice Agent

원문 읽기