피드로 돌아가기
Dev.toInfrastructure
원문 읽기
Modal 기반 비동기 파이프라인을 통한 AI 숏폼 영상 생성 자동화
I built an AI faceless video generator in 2 months — here's the stack
AI 요약
Context
기존 수동 영상 제작 공정의 과도한 리소스 소모로 인한 창작자 번아웃 문제 해결 필요. Vercel Serverless Functions의 Cold Start 및 실행 시간 제한으로 인한 60초 이상 영상 처리 불가 한계 직면.
Technical Solution
- Modal 기반의 독립적 비동기 파이프라인 구축을 통한 Vercel의 컴퓨팅 제약 해결 및 FFmpeg 연산 최적화
- GPT-4o 기반 스크립트 생성 후 Scene Splitter를 통한 작업 단위 분할 및 Flux 이미지와 ElevenLabs 오디오의 Parallel 처리 설계
- Cloudflare R2를 활용한 S3 호환 스토리지 구축 및 Modal Webhook 기반의 실시간 상태 업데이트 메커니즘 구현
- Supabase RLS(Row Level Security) 초기 적용을 통한 사용자 데이터 격리 및 보안 아키텍처 확립
- 템플릿 중심의 UX 설계를 통한 사용자 제어 복잡도 제거 및 생성 성공률 최적화
Impact
- 영상 한 편당 제작 시간 2~4시간에서 2~5분으로 단축
- 11종의 정형화된 템플릿으로 전체 생성 요청의 95% 처리
실천 포인트
1. Serverless 환경의 실행 시간 제한(Timeout) 발생 시 Modal과 같은 GPU/컴퓨팅 전문 플랫폼으로 워크로드 분리 검토
2. 초기 설계 단계부터 Database RLS를 적용하여 서비스 성장 후의 보안 마이그레이션 비용 제거
3. 복잡한 제어 옵션(Blank Canvas)보다 정형화된 템플릿 제공을 통한 사용자 이탈 방지 및 전환율 개선