피드로 돌아가기
I built a tool that gives Claude Code eyes on videos — extract code from any tutorial
Dev.toDev.to
AI/ML

Vision LLM과 Scene Detection을 활용한 비디오 내 코드 자동 추출 파이프라인 구축

I built a tool that gives Claude Code eyes on videos — extract code from any tutorial

Mariano Perez Baldasare2026년 5월 15일1intermediate

Context

튜토리얼 영상 내 코드를 수동으로 타이핑하는 비효율적인 프로세스 존재. 영상의 시각적 정보와 오디오 컨텍스트를 결합하여 실행 가능한 코드로 변환하는 자동화 구조 필요.

Technical Solution

  • Scene Detection 기반의 핵심 프레임 추출을 통한 데이터 처리량 최적화
  • Whisper 모델을 활용한 오디오 전사로 코드 맥락 정보 보완
  • Llama3.2-vision 및 Llava 등 Vision LLM을 통한 화면 내 텍스트 OCR 및 구조 분석
  • Ollama 기반의 Local Inference 환경 구축으로 데이터 프라이버시 확보 및 비용 제로화
  • MCP(Model Context Protocol) 서버 구현을 통한 Claude Code와의 유연한 인터페이스 통합
  • 추출된 코드 조각들을 프로젝트 파일 구조로 재구성하는 어셈블리 로직 적용

1. Vision LLM 도입 시 Local Inference(Ollama)를 통한 개인정보 보호 및 비용 최적화 검토

2. 비디오 분석 시 전체 프레임이 아닌 Scene Detection 기반의 핵심 프레임 샘플링 전략 적용

3. 단순 OCR을 넘어 오디오 전사(Whisper) 정보를 컨텍스트로 활용하여 코드 정확도 향상

4. MCP 서버 표준을 활용해 AI 에이전트와 커스텀 툴 간의 상호운용성 확보

원문 읽기