VRAM 제약 하에 모델 교체 대신 Gemini Flash Lite Prompt Enhancer로 품질 최적화

HiDream Raw Output Failed Tried Dev-2604 VRAM Math Killed It Won with a Prompt Enhancer Instead

shinji shimizu2026년 5월 23일12분intermediate

AI 요약

Context

HiDream-O1-Image 8B Full 모델의 단순 일본어 프롬프트 처리 시 Instruction-following 및 심미적 품질 저하 발생. 96GB VRAM 환경에서 모델 교체(Dev-2604) 시도 중 메모리 부족 및 Edit/IP 성능 저하라는 트레이드오프 직면.

Technical Solution

모델 전면 교체 대신 기존 Full 모델 유지 및 상단에 Gemini Flash Lite 기반의 Prompt Enhancer 계층 추가
Preference-tuned 모델인 Dev-2604가 가진 낮은 Instruction-following 및 원본 유지력(Edit/IP 성능) 문제를 분석하여 모델 교체 기각
고유 명사 렌더링 오류, 특정 키워드의 신체 편향 등 4가지 주요 Pitfalls를 정의하고 이를 보정하는 System Prompt 설계
LLM을 통한 프롬프트 정교화로 OpenWeight 모델의 기대 입력값과 사용자 자연어 입력 사이의 Gap 해소
VRAM 추가 점유 없는 API 기반 경량 LLM 설계를 통한 서비스 가용성 확보

실천 포인트

- 일반 프롬프트 벤치마크와 실제 Use-case 기반 벤치마크를 구분하여 검증하는 2단계 A/B 테스트 수행 - 모델의 Text-rendering 능력을 확인하여 고유 명사 및 브랜드명이 이미지 내에 텍스트로 직접 노출되는지 사전 검증 - VRAM 부족 시 로컬 LLM 추가보다 외부 API 기반의 가벼운 Prompt Enhancer 도입 검토

태그

#VRAM Optimization #Prompt Engineering #Instruction following #T2I #OpenWeight Model

원문 읽기