VAD 전처리를 통한 Whisper ASR의 무음 구간 Hallucination 해결

Whisper Hallucination on Silence: Why Your Transcript Loops the Same Phrase

nareshipme2026년 4월 14일2분intermediate

AI 요약

Context

Whisper 모델이 무음 또는 배경 소음을 음성으로 오인하여 이전 구절을 반복 생성하는 Hallucination 발생. 내장된 Confidence Threshold 부재 및 VAD 미적용으로 인한 저신뢰도 구간의 강제 텍스트 변환이 병목 지점으로 작용.

실천 포인트

1. ASR 모델 도입 시 무음/소음 구간의 Hallucination 가능성 검토

2. 추론 전단계에 VAD(Voice Activity Detection) 전처리 레이어 추가 여부 확인

3. 범용 모델의 한계 발생 시 특정 언어 및 억양에 최적화된 Domain-specific 모델 검토

태그