합성 데이터 기반 Ground Truth 설계를 통한 ASR 벤치마크 정밀도 확보

You can't benchmark an AI notetaker against a real meeting — you don't know the right answer. So I generated the meeting.

Tien Nguyen2026년 6월 15일7분intermediate

AI 요약

Context

실제 회의 녹음본을 이용한 AI Notetaker 비교 시 정답지(Ground Truth)의 부재로 인한 객관적 평가 불가 문제 발생. 전사 결과물 자체를 기준으로 삼는 순환 논리적 오류로 인해 Word Error Rate(WER) 측정의 신뢰성 결여.

실천 포인트

정답지가 없는 STT 평가 시 '스크립트 작성 → 오디오 합성 → 전사' 순의 역방향 설계를 통해 Ground Truth를 생성하고, 단순 정확도보다는 의미 전달 핵심 토큰(Domain Jargon, 숫자)의 보존율을 측정할 것

태그