n8n과 FFmpeg Micro API 기반의 무상태(Stateless) 비디오 캡셔닝 자동화 파이프라인 구축

Auto-Add Captions to Every Video Your Team Uploads (n8n + FFmpeg)

Javid Jamae2026년 6월 12일6분intermediate

AI 요약

Context

비디오 콘텐츠의 접근성 및 SEO 강화를 위해 자막 추가가 필수적이나, 수동 작업에 따른 리소스 낭비와 외주 처리 시 발생하는 턴어라운드 지연 시간이 주요 병목 지점으로 작용함. 기존의 FFmpeg 기반 자동화는 GPU 인스턴스 관리 및 복잡한 바이너리 설치 등 인프라 운영 부담이 큼.

Technical Solution

n8n 워크플로우를 통한 Event-Driven 기반의 비디오 처리 파이프라인 설계
서버리스 API 호출 방식을 통한 GPU 인스턴스 및 FFmpeg 바이너리 관리 비용 제거
Whisper 기반의 Transcribe API를 이용한 오디오 추출 및 SRT 자막 파일 생성
비동기 처리 방식의 Job Polling 메커니즘을 도입하여 작업 완료 상태를 3초 주기로 검증
FFmpeg의 -vf subtitles 필터를 활용하여 SRT 파일을 비디오 프레임에 직접 Burn-in 처리하는 구조
Signed URL 기반의 데이터 전달로 파일 다운로드 없이 API 간 데이터 파이프라인 최적화

Impact

10분 길이의 비디오 처리 시 약 1~2분의 Transcription 소요 시간 달성
깨끗한 오디오 기준 95% 이상의 전사 정확도 확보
총 8개의 노드 구성으로 코드 작성 없는 전 과정 자동화 구현

실천 포인트

1. 비동기 API 처리 시 상태 확인을 위한 Polling 루프와 Wait 노드 적절히 배치했는가

2. Signed URL의 만료 시간(예: 10분)과 처리 프로세스의 소요 시간 간의 정합성을 검토했는가

3. 외부 API 서비스 이용 시 Public URL 접근 권한 또는 Signed URL 제공 설정이 완료되었는가

4. 다국어 처리 시 Auto-detection 대신 명시적 BCP-47 언어 코드 설정을 통해 정확도를 높였는가

태그

#n8n #FFmpeg #Whisper #Stateless Architecture #Event-Driven

원문 읽기