피드로 돌아가기
You can't benchmark an AI notetaker against a real meeting — you don't know the right answer. So I generated the meeting.
Dev.toDev.to
AI/ML

합성 데이터 기반 Ground Truth 설계를 통한 ASR 벤치마크 정밀도 확보

You can't benchmark an AI notetaker against a real meeting — you don't know the right answer. So I generated the meeting.

Tien Nguyen2026년 6월 15일7intermediate

Context

실제 회의 녹음본을 이용한 AI Notetaker 비교 시 정답지(Ground Truth)의 부재로 인한 객관적 평가 불가 문제 발생. 전사 결과물 자체를 기준으로 삼는 순환 논리적 오류로 인해 Word Error Rate(WER) 측정의 신뢰성 결여.

Technical Solution

  • 스크립트 선작성 후 TTS(ElevenLabs)를 통한 오디오를 생성하여 완벽한 Answer Key를 확보하는 합성 데이터 파이프라인 구축
  • Q3, P95, $16 등 ASR 엔진이 오인식하기 쉬운 Adversarial Token을 의도적으로 배치하여 엣지 케이스 테스트 설계
  • Bash 스크립트를 활용한 TTS API 호출 및 ffmpeg 기반의 오디오 병합으로 결정론적(Deterministic) 입력 데이터 생성
  • Diarization 성능 검증을 위해 화자 간 0.4초의 무음 구간(Silence)을 삽입하여 명확한 Speaker Boundary 설정
  • TTS 입력 시 숫자를 텍스트로 풀어서 작성하여 오디오의 모호성을 제거하고 전사 도구의 복원 능력만 정밀 측정
  • API 응답의 JSON 에러 바디를 체크하는 Fail-loud 로직을 구현하여 손상된 파일의 전사로 인한 데이터 오염 방지

정답지가 없는 STT 평가 시 '스크립트 작성 → 오디오 합성 → 전사' 순의 역방향 설계를 통해 Ground Truth를 생성하고, 단순 정확도보다는 의미 전달 핵심 토큰(Domain Jargon, 숫자)의 보존율을 측정할 것

원문 읽기