피드로 돌아가기
ASR-generated subtitles vs forced alignment: why script-first captions fail less
Dev.toDev.to
AI/ML

ASR 기반 텍스트 생성에서 Forced Alignment 기반 타이밍 추출로의 소스 설계 전환

ASR-generated subtitles vs forced alignment: why script-first captions fail less

Yana Li2026년 6월 18일9intermediate

Context

기존 자막 생성 워크플로우는 Audio-to-Text 방식의 ASR을 Source of Truth로 처리하여 승인된 스크립트가 존재함에도 텍스트 변형이 발생하는 한계 존재. 특히 기술 용어의 정규화나 숫자 표기 변경으로 인한 데이터 오염 및 컴플라이언스 리스크 발생 가능성 상존.

Technical Solution

  • Script-First 워크플로우 설계를 통한 텍스트 소유권의 스크립트 고정
  • ASR 모델을 텍스트 생성기가 아닌 Acoustic Evidence 및 타이밍 증거 추출 도구로 역할 재정의
  • Forced Alignment 기법을 적용하여 기정의된 텍스트의 오디오 내 위치를 찾는 구조로 전환
  • Text Normalization 및 Audio Segmentation 단계를 거쳐 정밀한 Cue Generation 수행
  • ASR 출력값과 스크립트 간의 Mismatch Detection 로직을 통해 수동 검토가 필요한 지점만 표면화
  • 기계적 자동 수정 대신 Uncertainty Signal을 제공하여 사용자 신뢰도를 높인 Review-driven 구조 설계

- 사용자 제공 스크립트 존재 여부에 따른 Source of Truth 분리 설계 검토 - ASR 결과물을 최종 텍스트가 아닌 타이밍 추정치(Evidence)로만 활용하는 파이프라인 구축 - 기술 용어 및 고유 명사의 보존을 위한 Forced Alignment 모델(예: NVIDIA NeMo) 도입 고려 - Silent Edit를 배제하고 불확실한 구간에 대해 Review Issue를 생성하는 예외 처리 프로세스 적용

원문 읽기