피드로 돌아가기
Hugging Face BlogAI/ML
원문 읽기
Code-switching 대응 ASR 벤치마크 통한 최적 모델 선정 및 전파 오류 분석
Can Voice Agents Handle Bilingual Customers? Benchmarking Frontier ASR on Code-Switched Speech
AI 요약
Context
다국어 사용자의 문장 내 언어 전환(Code-switching) 현상이 일반적임에도 기업용 Voice Agent의 대응 성능 검증 체계가 부족한 상황. 특히 ASR 단계의 전사 오류가 하위 파이프라인으로 전파되어 비즈니스 운영 리스크를 초래하는 병목 지점 형성.
Technical Solution
- HR 및 ITSM 도메인 특화 코퍼스를 기반으로 4개 언어 쌍(Spanish, French, Canadian French, German-English) 벤치마크 데이터셋 설계
- GPT-5를 활용한 페르소나 프롬프팅으로 현실적인 Code-switching 텍스트 생성 후 ElevenLabs Multilingual V2로 오디오 합성
- 단순 텍스트 일치도를 넘어 의미론적 보존력을 측정하기 위해 WER, SWER, AER의 3단계 계층적 메트릭 도입
- 하위 태스크 영향도 평가를 위해 전사본 기반 질의응답 성능을 측정하는 Answer Error Rate(AER) 로직 구현
- 실제 운영 환경과 동일한 조건 구현을 위해 강제 언어 토큰 없이 Auto-detection 모드만으로 모델 평가 수행
- Gemma-4-31B를 Judge 모델로 활용하여 전사 오류의 의미론적 중요도를 판별하는 SWER 측정 자동화
실천 포인트
1. 다국어 서비스 설계 시 단순 WER 외에 하위 LLM 태스크에 영향을 주는 Semantic WER 및 AER 지표를 함께 검토할 것
2. ASR 모델 선택 시 언어 쌍(Language Pair)별 성능 편차가 크므로 타겟 고객의 주 사용 언어 조합에 맞는 개별 벤치마킹을 수행할 것
3. 운영 환경의 제약 조건을 반영하여 Language Hint 없이 Auto-detection 기반의 성능 테스트를 선행할 것