피드로 돌아가기
Whisper Hallucination on Silence: Why Your Transcript Loops the Same Phrase
Dev.toDev.to
AI/ML

VAD 전처리를 통한 Whisper ASR의 무음 구간 Hallucination 해결

Whisper Hallucination on Silence: Why Your Transcript Loops the Same Phrase

nareshipme2026년 4월 14일2intermediate

Context

Whisper 모델이 무음 또는 배경 소음을 음성으로 오인하여 이전 구절을 반복 생성하는 Hallucination 발생. 내장된 Confidence Threshold 부재 및 VAD 미적용으로 인한 저신뢰도 구간의 강제 텍스트 변환이 병목 지점으로 작용.

Technical Solution

  • Audio Embedding 값이 0에 가까운 무음 구간을 모델이 학습 데이터 기반으로 강제 보간하려는 특성 분석
  • non-speech 오디오 신호를 음성으로 매칭하려는 모델의 시도와 루핑 현상의 상관관계 식별
  • VAD(Voice Activity Detection) 모듈을 전처리 단계에 배치하여 실제 음성 구간만 추출하는 파이프라인 설계
  • 검출된 Speech Segments에 대해서만 ASR 추론을 수행하여 무음 구간의 입력 자체를 차단하는 구조 채택
  • 특정 도메인(인도어 등)의 경우 언어 패턴에 특화된 Sarvam 모델로 교체하여 도메인 적합성 확보

1. ASR 모델 도입 시 무음/소음 구간의 Hallucination 가능성 검토

2. 추론 전단계에 VAD(Voice Activity Detection) 전처리 레이어 추가 여부 확인

3. 범용 모델의 한계 발생 시 특정 언어 및 억양에 최적화된 Domain-specific 모델 검토

원문 읽기