피드로 돌아가기
How I Built a Free, Self-Hosted Pipeline That Auto-Generates Faceless YouTube Shorts
Dev.toDev.to
AI/ML

비용 0원, 로컬 모델 기반의 AI 숏폼 자동 생성 파이프라인 구축

How I Built a Free, Self-Hosted Pipeline That Auto-Generates Faceless YouTube Shorts

nils443442026년 5월 23일5intermediate

Context

기존 AI 비디오 생성 툴들의 과도한 구독료($75–100/month) 및 종속성 문제를 해결하기 위한 시도. 클라우드 서비스 중심의 파편화된 워크플로우를 통합하여 로컬 및 무료 API 기반의 소유 가능한 시스템 구축 필요성 대두.

Technical Solution

  • Groq Llama 3.3 70B 모델의 JSON mode 활용을 통한 정형 데이터 추출 및 비주얼 쿼리 생성으로 파싱 에러 제거
  • edge-tts 라이브러리를 통한 Microsoft Neural Voice의 무료 API 접근으로 TTS 비용 제거
  • faster-whisper를 CPU 환경의 int8 양자화 모드로 로컬 배포하여 Word-level timestamp 기반의 자막 정밀도 확보
  • Pexels API와 ffmpeg 필터를 결합하여 세로형(1080x1920) 영상 크롭 및 캡션 번인(Burn-in) 자동화
  • truststore 라이브러리를 통한 OS 인증서 스토어 주입으로 Windows 환경의 TLS Interception 및 SSL 인증 오류 해결
  • config.yaml 기반의 추상화 설계를 통해 코드 수정 없는 니치 및 스타일 변경 구조 구현

- LLM 응답의 안정성을 위해 Regex 파싱 대신 JSON mode를 강제하여 데이터 스키마를 고정할 것 - Windows 기반 네트워크 애플리케이션 개발 시 certifi 대신 truststore를 사용하여 OS 수준의 루트 인증서를 참조할 것 - CPU 리소스 제약 환경에서 Whisper 모델 사용 시 compute_type='int8' 설정을 통해 추론 속도를 최적화할 것

원문 읽기