피드로 돌아가기
Dev.toAI/ML
원문 읽기
YOLO와 Multimodal LLM 결합을 통한 비정형 카탈로그의 정형 데이터 자동 전환
Transforming Unstructured Retail Catalogs into Structured Data using AI
AI 요약
Context
전통적 리테일 체인의 JPEG 기반 프로모션 카탈로그는 텍스트 배치가 불규칙하여 기존 OCR 방식으로는 정밀한 데이터 추출이 불가능한 한계 존재. 수동 데이터 입력 방식에 따른 과도한 리소스 소모와 낮은 업데이트 속도를 해결하기 위한 자동화 파이프라인 필요성 대두.
Technical Solution
- YOLO 기반 Object Detection 모델을 선행 배치하여 거대 이미지 내 개별 상품 영역을 Bounding Box로 분리하는 단계적 추출 구조 설계
- 분리된 상품 이미지를 Google Gemini Multimodal LLM에 전달하여 단순 텍스트 추출이 아닌 JSON 형태의 정형 데이터(상품명, 가격, 속성, 카테고리)로 변환
- 프론트엔드 런타임 부하 방지를 위해 이미지 최적화 로직을 백엔드 파이프라인으로 전진 배치하여 WebP 포맷 사전 생성 및 정적 URL 매핑 구조 채택
- 키워드 매칭과 Vector Search를 결합한 Hybrid Search 엔진 구축 및 빈번한 쿼리에 대한 Embedding Caching 레이어 적용으로 검색 지연 시간 최소화
- LLM의 환각 현상 및 낮은 신뢰도 데이터를 필터링하기 위해 임계값 기반의 수동 검토 큐를 포함한 Backoffice 관리 체계 구축
- 서로 다른 리테일러의 상품 명칭을 Semantic Similarity 기반으로 그룹화하여 단일 SEO Entity로 통합하는 정규화 프로세스 구현
실천 포인트
1. 비정형 이미지 분석 시 OCR 단일 공정 대신 [영역 검출(Object Detection) → 의미 추출(VLM)]의 2단계 파이프라인 검토
2. LLM API의 가변적 지연 시간을 처리하기 위해 추출 프로세스를 Background Worker Queue로 완전히 분리
3. 런타임 이미지 최적화 비용을 줄이기 위한 Build-time 또는 Pipeline-time 사전 최적화 전략 적용
4. 의미론적 검색 구현 시 Latency 감소를 위한 Vector Embedding Caching 레이어 설계 고려