피드로 돌아가기
Why text-to-image AI keeps failing at scientific figures (and what actually works)
Dev.toDev.to
AI/ML

Pixel-based AI 한계를 극복한 Structured Canvas 기반 설계로 작업 시간 90% 단축

Why text-to-image AI keeps failing at scientific figures (and what actually works)

FigCanvas2026년 5월 13일3intermediate

Context

Generic Image AI의 픽셀 기반 생성 방식에 따른 Label Hallucination과 비정형 Layout 문제 분석. 과학 논문용 도식에 필요한 정밀한 Vector 제어 및 반복적인 수정 요구사항을 충족하지 못하는 아키텍처적 한계 직면.

Technical Solution

  • Pixel-based Generation에서 Structured Representation 방식으로의 설계 전환
  • Natural Language Prompt를 픽셀이 아닌 Boxes, Arrows, Labels 등 구조적 개체로 매핑하는 중간 계층 도입
  • Render-on-Export 전략을 통한 텍스트 렌더링 오류 원천 차단 및 가독성 확보
  • Science-aware Primitives 라이브러리 구축을 통한 학술지 표준 Visual Vocabulary 구현
  • Compositional Edit 구조 설계를 통한 개별 패널 추가 및 수정 시 전체 레이아웃 유지 가능 환경 조성
  • Text-to-Structure-to-Pixel 파이프라인 구축으로 반복적 수정 루프의 비용 최소화

1. 정밀한 수정이 필요한 도메인에서는 픽셀 생성 AI보다 구조적 데이터를 생성하는 LLM 파이프라인 검토

2. 최종 렌더링 직전까지 데이터를 구조화된 상태로 유지하는 Deferred Rendering 전략 적용

3. 도메인 특화 Primitives를 정의하여 AI가 생성하는 시각적 결과물의 일관성 강제

원문 읽기