Code-switching 대응 ASR 벤치마크 통한 최적 모델 선정 및 전파 오류 분석

Can Voice Agents Handle Bilingual Customers? Benchmarking Frontier ASR on Code-Switched Speech

2026년 6월 9일12분intermediate

AI 요약

Context

다국어 사용자의 문장 내 언어 전환(Code-switching) 현상이 일반적임에도 기업용 Voice Agent의 대응 성능 검증 체계가 부족한 상황. 특히 ASR 단계의 전사 오류가 하위 파이프라인으로 전파되어 비즈니스 운영 리스크를 초래하는 병목 지점 형성.

HR 및 ITSM 도메인 특화 코퍼스를 기반으로 4개 언어 쌍(Spanish, French, Canadian French, German-English) 벤치마크 데이터셋 설계
GPT-5를 활용한 페르소나 프롬프팅으로 현실적인 Code-switching 텍스트 생성 후 ElevenLabs Multilingual V2로 오디오 합성
단순 텍스트 일치도를 넘어 의미론적 보존력을 측정하기 위해 WER, SWER, AER의 3단계 계층적 메트릭 도입
하위 태스크 영향도 평가를 위해 전사본 기반 질의응답 성능을 측정하는 Answer Error Rate(AER) 로직 구현
실제 운영 환경과 동일한 조건 구현을 위해 강제 언어 토큰 없이 Auto-detection 모드만으로 모델 평가 수행
Gemma-4-31B를 Judge 모델로 활용하여 전사 오류의 의미론적 중요도를 판별하는 SWER 측정 자동화

실천 포인트

1. 다국어 서비스 설계 시 단순 WER 외에 하위 LLM 태스크에 영향을 주는 Semantic WER 및 AER 지표를 함께 검토할 것

2. ASR 모델 선택 시 언어 쌍(Language Pair)별 성능 편차가 크므로 타겟 고객의 주 사용 언어 조합에 맞는 개별 벤치마킹을 수행할 것

3. 운영 환경의 제약 조건을 반영하여 Language Hint 없이 Auto-detection 기반의 성능 테스트를 선행할 것

태그