YOLO와 Multimodal LLM 결합을 통한 비정형 카탈로그의 정형 데이터 자동 전환

Transforming Unstructured Retail Catalogs into Structured Data using AI

Fırat Özgür Özcan2026년 4월 10일3분intermediate

AI 요약

Context

전통적 리테일 체인의 JPEG 기반 프로모션 카탈로그는 텍스트 배치가 불규칙하여 기존 OCR 방식으로는 정밀한 데이터 추출이 불가능한 한계 존재. 수동 데이터 입력 방식에 따른 과도한 리소스 소모와 낮은 업데이트 속도를 해결하기 위한 자동화 파이프라인 필요성 대두.

YOLO 기반 Object Detection 모델을 선행 배치하여 거대 이미지 내 개별 상품 영역을 Bounding Box로 분리하는 단계적 추출 구조 설계
분리된 상품 이미지를 Google Gemini Multimodal LLM에 전달하여 단순 텍스트 추출이 아닌 JSON 형태의 정형 데이터(상품명, 가격, 속성, 카테고리)로 변환
프론트엔드 런타임 부하 방지를 위해 이미지 최적화 로직을 백엔드 파이프라인으로 전진 배치하여 WebP 포맷 사전 생성 및 정적 URL 매핑 구조 채택
키워드 매칭과 Vector Search를 결합한 Hybrid Search 엔진 구축 및 빈번한 쿼리에 대한 Embedding Caching 레이어 적용으로 검색 지연 시간 최소화
LLM의 환각 현상 및 낮은 신뢰도 데이터를 필터링하기 위해 임계값 기반의 수동 검토 큐를 포함한 Backoffice 관리 체계 구축
서로 다른 리테일러의 상품 명칭을 Semantic Similarity 기반으로 그룹화하여 단일 SEO Entity로 통합하는 정규화 프로세스 구현

실천 포인트

1. 비정형 이미지 분석 시 OCR 단일 공정 대신 [영역 검출(Object Detection) → 의미 추출(VLM)]의 2단계 파이프라인 검토

2. LLM API의 가변적 지연 시간을 처리하기 위해 추출 프로세스를 Background Worker Queue로 완전히 분리

3. 런타임 이미지 최적화 비용을 줄이기 위한 Build-time 또는 Pipeline-time 사전 최적화 전략 적용

4. 의미론적 검색 구현 시 Latency 감소를 위한 Vector Embedding Caching 레이어 설계 고려

태그