단일 API 호출 기반 9-Grid 설계로 비용 87.5% 절감 및 Face Drift 해결

One gpt-image-2 call, 9 hairstyle variants: prompt engineering for grid layouts

汪小春2026년 5월 16일3분intermediate

AI 요약

Context

헤어스타일 프리뷰 서비스에서 스타일별로 개별 API를 호출하는 Naive Architecture 채택. 이로 인해 높은 비용 발생과 과도한 Latency, 개별 생성 시 발생하는 Face Drift 현상으로 인한 사용자 경험 저하라는 기술적 병목 지점 직면.

Technical Solution

8회의 개별 호출 구조를 단일 API 호출을 통한 3x3 Grid 생성 방식으로 전환
모델의 일관성 유지를 위해 '동일 인물, 동일 조명, 동일 각도' 제약 조건을 Prompt에 명시
셀 간 간섭 및 이미지 혼합 방지를 위해 'Thin white border' 지침을 통한 Layout discipline 확보
UI 레이블링과 매칭되는 결정적 배치(Deterministic placement)를 위해 [N] 형태의 번호 기반 슬롯 지정 방식 도입
1/9 크기의 제한된 캔버스 내 시각적 구분을 위해 유사 스타일을 배제하고 시각적 변별력이 높은 스타일 셋으로 최적화
모델의 Identity 보존 한계를 고려하여 16-Grid가 아닌 9-Grid를 최적의 성능 지점(Sweet spot)으로 설정

Impact

Cost: 호출당 $0.32에서 $0.04로 8배 감소
Latency: 순차 호출 기준 40초에서 단일 호출 기준 약 6초로 대폭 단축
Consistency: 단일 이미지 내 생성으로 Face Drift 제거 및 인물 동일성 확보

실천 포인트

- 다수의 유사 변형 이미지가 필요한 경우 'Single-call Multi-variant' 패턴 검토 - 생성 AI의 Layout 제어를 위해 명시적 구분선(Border)과 번호 기반 슬롯 지정 기법 적용 - 모델별 Identity 유지 가능 최대 셀 개수를 파악하여 최적의 Grid 사이즈 결정 - UI 단계에서 합성 이미지를 Slice 하여 개별 이미지처럼 제공하는 전략 고려

태그

#API Optimization #Prompt Engineering #Face Consistency #Grid Layout #Latency Reduction

원문 읽기