피드로 돌아가기
Dev.toAI/ML
원문 읽기
CLI 기반 이미지/비디오 생성 통합으로 Agent Workflow의 Context Switch 제거
How to Generate Images and Video in Claude Code (Without Leaving the Terminal)
AI 요약
Context
Claude Code와 같은 Text-based Coding Agent가 이미지 및 비디오 에셋 생성 능력이 없어 발생하는 작업 단절 발생. 외부 UI 도구 사용에 따른 잦은 Context Switch와 수동 파일 이동으로 인한 개발 flow 저해 및 생산성 저하 상황 분석.
Technical Solution
- Shell Command 인터페이스 기반의 Masonry CLI 도입을 통한 Agent의 에셋 생성 권한 확보
- 50개 이상의 모델을 단일 Command(image, video)로 추상화하여 태스크별 최적 모델 선택 구조 설계
masonry skill install을 통한 Agent의 Skillset 확장으로 자연어 요청 시 자동 Command 실행 유도- API Key 노출 방지를 위해
masonry login기반의 로컬 자격 증명 저장 방식 채택 --model,--aspect,--output플래그를 통한 생성 파라미터의 선언적 제어 및 버전 관리 가능 구조 구현- Text-to-Image 및 Image-to-Video 워크플로우를 동일한 CLI 파이프라인으로 통합하여 일관된 UX 제공
실천 포인트
- Agentic Workflow 설계 시 외부 도구의 UI 의존성을 제거하고 CLI 인터페이스 제공 검토 - 단일 모델 의존성을 피하기 위해 공통 인터페이스 뒤에 다중 모델을 배치하는 추상화 계층 설계 - LLM Agent에게 특정 기능을 부여할 때 'Skill' 형태로 명령어 세트를 정의하여 자율성 부여