ASR 기반 텍스트 생성에서 Forced Alignment 기반 타이밍 추출로의 소스 설계 전환

ASR-generated subtitles vs forced alignment: why script-first captions fail less

Yana Li2026년 6월 18일9분intermediate

AI 요약

Context

기존 자막 생성 워크플로우는 Audio-to-Text 방식의 ASR을 Source of Truth로 처리하여 승인된 스크립트가 존재함에도 텍스트 변형이 발생하는 한계 존재. 특히 기술 용어의 정규화나 숫자 표기 변경으로 인한 데이터 오염 및 컴플라이언스 리스크 발생 가능성 상존.

Technical Solution

Script-First 워크플로우 설계를 통한 텍스트 소유권의 스크립트 고정
ASR 모델을 텍스트 생성기가 아닌 Acoustic Evidence 및 타이밍 증거 추출 도구로 역할 재정의
Forced Alignment 기법을 적용하여 기정의된 텍스트의 오디오 내 위치를 찾는 구조로 전환
Text Normalization 및 Audio Segmentation 단계를 거쳐 정밀한 Cue Generation 수행
ASR 출력값과 스크립트 간의 Mismatch Detection 로직을 통해 수동 검토가 필요한 지점만 표면화
기계적 자동 수정 대신 Uncertainty Signal을 제공하여 사용자 신뢰도를 높인 Review-driven 구조 설계

실천 포인트

- 사용자 제공 스크립트 존재 여부에 따른 Source of Truth 분리 설계 검토 - ASR 결과물을 최종 텍스트가 아닌 타이밍 추정치(Evidence)로만 활용하는 파이프라인 구축 - 기술 용어 및 고유 명사의 보존을 위한 Forced Alignment 모델(예: NVIDIA NeMo) 도입 고려 - Silent Edit를 배제하고 불확실한 구간에 대해 Review Issue를 생성하는 예외 처리 프로세스 적용

태그

#Text Normalization #Source of Truth #Forced Alignment #ASR #Audio Segmentation

원문 읽기