피드로 돌아가기
Dev.toAI/ML
원문 읽기
VRAM 제약 하에 모델 교체 대신 Gemini Flash Lite Prompt Enhancer로 품질 최적화
HiDream Raw Output Failed Tried Dev-2604 VRAM Math Killed It Won with a Prompt Enhancer Instead
AI 요약
Context
HiDream-O1-Image 8B Full 모델의 단순 일본어 프롬프트 처리 시 Instruction-following 및 심미적 품질 저하 발생. 96GB VRAM 환경에서 모델 교체(Dev-2604) 시도 중 메모리 부족 및 Edit/IP 성능 저하라는 트레이드오프 직면.
Technical Solution
- 모델 전면 교체 대신 기존 Full 모델 유지 및 상단에 Gemini Flash Lite 기반의 Prompt Enhancer 계층 추가
- Preference-tuned 모델인 Dev-2604가 가진 낮은 Instruction-following 및 원본 유지력(Edit/IP 성능) 문제를 분석하여 모델 교체 기각
- 고유 명사 렌더링 오류, 특정 키워드의 신체 편향 등 4가지 주요 Pitfalls를 정의하고 이를 보정하는 System Prompt 설계
- LLM을 통한 프롬프트 정교화로 OpenWeight 모델의 기대 입력값과 사용자 자연어 입력 사이의 Gap 해소
- VRAM 추가 점유 없는 API 기반 경량 LLM 설계를 통한 서비스 가용성 확보
실천 포인트
- 일반 프롬프트 벤치마크와 실제 Use-case 기반 벤치마크를 구분하여 검증하는 2단계 A/B 테스트 수행 - 모델의 Text-rendering 능력을 확인하여 고유 명사 및 브랜드명이 이미지 내에 텍스트로 직접 노출되는지 사전 검증 - VRAM 부족 시 로컬 LLM 추가보다 외부 API 기반의 가벼운 Prompt Enhancer 도입 검토