피드로 돌아가기
How to Generate Images and Video in Claude Code (Without Leaving the Terminal)
Dev.toDev.to
AI/ML

CLI 기반 이미지/비디오 생성 통합으로 Agent Workflow의 Context Switch 제거

How to Generate Images and Video in Claude Code (Without Leaving the Terminal)

Gaurav Bisen2026년 6월 2일6beginner

Context

Claude Code와 같은 Text-based Coding Agent가 이미지 및 비디오 에셋 생성 능력이 없어 발생하는 작업 단절 발생. 외부 UI 도구 사용에 따른 잦은 Context Switch와 수동 파일 이동으로 인한 개발 flow 저해 및 생산성 저하 상황 분석.

Technical Solution

  • Shell Command 인터페이스 기반의 Masonry CLI 도입을 통한 Agent의 에셋 생성 권한 확보
  • 50개 이상의 모델을 단일 Command(image, video)로 추상화하여 태스크별 최적 모델 선택 구조 설계
  • masonry skill install을 통한 Agent의 Skillset 확장으로 자연어 요청 시 자동 Command 실행 유도
  • API Key 노출 방지를 위해 masonry login 기반의 로컬 자격 증명 저장 방식 채택
  • --model, --aspect, --output 플래그를 통한 생성 파라미터의 선언적 제어 및 버전 관리 가능 구조 구현
  • Text-to-Image 및 Image-to-Video 워크플로우를 동일한 CLI 파이프라인으로 통합하여 일관된 UX 제공

- Agentic Workflow 설계 시 외부 도구의 UI 의존성을 제거하고 CLI 인터페이스 제공 검토 - 단일 모델 의존성을 피하기 위해 공통 인터페이스 뒤에 다중 모델을 배치하는 추상화 계층 설계 - LLM Agent에게 특정 기능을 부여할 때 'Skill' 형태로 명령어 세트를 정의하여 자율성 부여

원문 읽기