피드로 돌아가기
Is Omni's conversational video editor as good as the demos?
Dev.toDev.to
AI/ML

State 기반 Context 유지를 통한 대화형 Video Editing 루프 구현

Is Omni's conversational video editor as good as the demos?

Creeta2026년 6월 18일9intermediate

Context

기존 Veo 모델의 One-shot Render 방식으로 인한 샷 간 연속성 결여 및 매 프롬프트마다 씬을 재시작해야 하는 구조적 한계 존재. 단순 생성 기능을 넘어 이전 턴의 캐릭터와 조명 정보를 유지하는 상태 관리 메커니즘의 필요성 증대.

Technical Solution

  • Gemini Omni Flash 모델 도입을 통한 턴 간 Context 유지 및 State 기반 비디오 편집 구조 설계
  • 단순 렌더 엔진 교체가 아닌 Gemini의 추론 능력을 결합한 Iterative Editing Loop 구현
  • 프롬프트 기반의 Shot List 구조(framing, motion, lighting 등)를 통한 제어 정밀도 향상
  • Google Flow 내 Character/Voice Locking 기능을 통한 일관된 에셋 생성 및 샷 체이닝 로직 적용
  • SynthID 및 C2PA 기반의 이중 Machine-verifiable Watermark 레이어 적용으로 데이터 투명성 확보
  • 텍스트-이미지-비디오를 통합 처리하는 T2VA, I2VA, R2VA 멀티모달 입력 파이프라인 구축

1. 비디오 생성 프롬프트 작성 시 문장형보다 전문 촬영 용어 기반의 Shot List 구조 채택

2. 일관성 유지가 필요한 프로젝트의 경우 Character Locking 기능이 제공되는 Flow 환경 검토

3. API 미출시 상태이므로 Google Flow 및 Gemini App을 통한 프로토타입 검증 선행

4. 지역 및 계정 유형(Personal vs Workspace)에 따른 기능 제한 사항 사전 확인

원문 읽기