AWS Bedrock과 Claude 3.5 Sonnet을 활용한 자동 상품 이미지 검수 시스템 구축기

올리브영이 AWS Bedrock과 Claude 3.5 Sonnet으로 상품 이미지 자동 검수 시스템을 구축해 99.8% 정확도 달성 및 5초 이내 처리 속도 확보

2024년 9월 11일12분intermediate

AI 요약

Context

올리브영은 네이버 쇼핑, 구글 등 외부 플랫폼의 이미지 가이드라인을 만족해야 하는 과제를 안고 있었다. 다양한 담당자들이 매뉴얼을 다르게 해석하면서 이미지 검수 일관성이 떨어지고, 처리해야 할 이미지 양도 방대해 수동 검수가 비효율적이었다.

Technical Solution

Claude 3.5 Sonnet 모델 도입: Claude 3.5 Sonnet vs Claude 3 Haiku vs GPT-4 vs GPT-3.5 Turbo 비교 후 정확도(대부분 분류 목표 달성)와 AWS 통합 용이성을 고려해 선택
System Prompt 기반 역할 정의: "올리브영의 상품 이미지 검수 전문가"라는 구체적 역할을 AI에 부여하고 가이드라인 맥락 정보 제공
모델 파라미터 최적화: Temperature를 1에서 0으로, Top-p를 1에서 0.1로, Top-k를 미설정에서 1로 조정해 응답 안정성 확보
프롬프트 엔지니어링: 명확한 지시사항, 구체적 예시, 검사 우선순위, 예외 상황, JSON 응답 포맷 통일
인간-AI 협업 모델: 낮은 신뢰도 결과에 대한 수동 검토 프로세스 도입
캐싱 전략: 동일 이미지 재검증 방지

Impact

타깃 대상(44개 이미지): 전체 정확도 100%, 가이드 미준수 검출률 100%
전체 POC 대상(109개 이미지): 전체 정확도 90%, 가이드 미준수 검출률 97%
최종 운영 대상(2,523개 이미지): 전체 정확도 약 99.8%, 가이드 미준수 검출률 약 99.8%
처리 시간: 이미지 업로드부터 검수 완료까지 5초 이내
매출 영향: 플랫폼 제재로 인한 매출 손실 90% 이상 방지

Key Takeaway

LLM 기반 이미지 분석 작업에서는 명확한 System Prompt로 AI의 역할을 정의하고 Temperature, Top-p, Top-k 파라미터를 낮춰 응답 일관성을 확보하는 것이 중요하다. Edge case(엠블럼과 상품 구분 오류 등)에 대한 프롬프트 최적화와 함께 인간-AI 협업 모델을 결합하면 운영 환경에서 99% 이상의 정확도를 달성할 수 있다.

실천 포인트

Claude 같은 멀티모달 LLM을 활용해 이미지 검수를 자동화하려는 팀에서는 System Prompt로 구체적 역할을 부여하고 Temperature=0, Top-p=

0.1로 설정한 후, 실제 데이터에 대한 A/B 검증으로 프롬프트를 반복 개선하면 95% 이상의 정확도를 달성할 수 있다.

태그

#Prompt Engineering #AWS Bedrock #Image Analysis #LLM #Claude

원문 읽기