피드로 돌아가기
Dev.toAI/ML
원문 읽기
Deterministic Rule과 LLM의 하이브리드 설계를 통한 STT Hallucination 15% 제거
Integrating AI into a Legacy Broadcasting CMS: The AI Pipeline Internals
AI 요약
Context
레거시 방송 CMS 환경에서 설교 오디오의 텍스트 변환 및 구조화 파이프라인 구축 필요성 증대. Whisper STT 모델의 고유한 Hallucination 및 도메인 특화 고유명사 인식 오류로 인한 데이터 신뢰도 저하 문제 직면.
Technical Solution
- Disk-based Intermediate Storage 도입을 통한 단계별 독립 재실행 및 디버깅 효율성 확보
- condition_on_previous_text=False 설정을 통한 Long-form 오디오의 Context Drift 및 반복 Hallucination 원천 차단
- RapidFuzz 기반 Sliding Window 필터링과 한글 비율 검증 로직을 결합한 4단계 데이터 정제 프로세스 설계
- Bible proper nouns에 대한 Deterministic Regex Mapping을 LLM 전단계에 배치하여 오정정 위험 제거 및 처리 속도 최적화
- Content Preservation을 위해 유창성보다 원문 유지력이 높은 소형 LLM(gemma4:e4b)을 선택한 모델 계층화 전략 적용
- Pinecone Vector DB를 활용한 Multilingual-e5-large 임베딩 기반의 최종 데이터 인덱싱 구조 설계
실천 포인트
1. LLM 도입 전 Regex 기반의 결정론적 필터가 해결 가능한 영역인지 먼저 검토했는가
2. 파이프라인 각 단계의 중간 결과물을 물리적 저장소에 기록하여 복구 및 디버깅 지점을 확보했는가
3. 모델의 유창성(Fluency)이 오히려 원문 훼손(Rewrite)이라는 부작용을 낳고 있지는 않은가
4. STT 모델의 Context Drift 방지를 위해 세그먼트 간 독립성 설정이 필요한 데이터셋인가