피드로 돌아가기
Dev.toAI/ML
원문 읽기
단일 API 호출 기반 9-Grid 설계로 비용 87.5% 절감 및 Face Drift 해결
One gpt-image-2 call, 9 hairstyle variants: prompt engineering for grid layouts
AI 요약
Context
헤어스타일 프리뷰 서비스에서 스타일별로 개별 API를 호출하는 Naive Architecture 채택. 이로 인해 높은 비용 발생과 과도한 Latency, 개별 생성 시 발생하는 Face Drift 현상으로 인한 사용자 경험 저하라는 기술적 병목 지점 직면.
Technical Solution
- 8회의 개별 호출 구조를 단일 API 호출을 통한 3x3 Grid 생성 방식으로 전환
- 모델의 일관성 유지를 위해 '동일 인물, 동일 조명, 동일 각도' 제약 조건을 Prompt에 명시
- 셀 간 간섭 및 이미지 혼합 방지를 위해 'Thin white border' 지침을 통한 Layout discipline 확보
- UI 레이블링과 매칭되는 결정적 배치(Deterministic placement)를 위해 [N] 형태의 번호 기반 슬롯 지정 방식 도입
- 1/9 크기의 제한된 캔버스 내 시각적 구분을 위해 유사 스타일을 배제하고 시각적 변별력이 높은 스타일 셋으로 최적화
- 모델의 Identity 보존 한계를 고려하여 16-Grid가 아닌 9-Grid를 최적의 성능 지점(Sweet spot)으로 설정
Impact
- Cost: 호출당 $0.32에서 $0.04로 8배 감소
- Latency: 순차 호출 기준 40초에서 단일 호출 기준 약 6초로 대폭 단축
- Consistency: 단일 이미지 내 생성으로 Face Drift 제거 및 인물 동일성 확보
실천 포인트
- 다수의 유사 변형 이미지가 필요한 경우 'Single-call Multi-variant' 패턴 검토 - 생성 AI의 Layout 제어를 위해 명시적 구분선(Border)과 번호 기반 슬롯 지정 기법 적용 - 모델별 Identity 유지 가능 최대 셀 개수를 파악하여 최적의 Grid 사이즈 결정 - UI 단계에서 합성 이미지를 Slice 하여 개별 이미지처럼 제공하는 전략 고려