Deterministic Rule과 LLM의 하이브리드 설계를 통한 STT Hallucination 15% 제거

Integrating AI into a Legacy Broadcasting CMS: The AI Pipeline Internals

Sangwoo Lee2026년 5월 4일13분intermediate

AI 요약

Context

레거시 방송 CMS 환경에서 설교 오디오의 텍스트 변환 및 구조화 파이프라인 구축 필요성 증대. Whisper STT 모델의 고유한 Hallucination 및 도메인 특화 고유명사 인식 오류로 인한 데이터 신뢰도 저하 문제 직면.

Disk-based Intermediate Storage 도입을 통한 단계별 독립 재실행 및 디버깅 효율성 확보
condition_on_previous_text=False 설정을 통한 Long-form 오디오의 Context Drift 및 반복 Hallucination 원천 차단
RapidFuzz 기반 Sliding Window 필터링과 한글 비율 검증 로직을 결합한 4단계 데이터 정제 프로세스 설계
Bible proper nouns에 대한 Deterministic Regex Mapping을 LLM 전단계에 배치하여 오정정 위험 제거 및 처리 속도 최적화
Content Preservation을 위해 유창성보다 원문 유지력이 높은 소형 LLM(gemma4:e4b)을 선택한 모델 계층화 전략 적용
Pinecone Vector DB를 활용한 Multilingual-e5-large 임베딩 기반의 최종 데이터 인덱싱 구조 설계

실천 포인트

1. LLM 도입 전 Regex 기반의 결정론적 필터가 해결 가능한 영역인지 먼저 검토했는가

2. 파이프라인 각 단계의 중간 결과물을 물리적 저장소에 기록하여 복구 및 디버깅 지점을 확보했는가

3. 모델의 유창성(Fluency)이 오히려 원문 훼손(Rewrite)이라는 부작용을 낳고 있지는 않은가

4. STT 모델의 Context Drift 방지를 위해 세그먼트 간 독립성 설정이 필요한 데이터셋인가

태그