올리브영 사용자 행동 데이터로 학습한 상품 유사도 언어 모델: 전통적 속성 기반 추천을 넘어선 의미론적 유사도 모델링

올리브영이 사용자 검색 행동 데이터로 생성한 레이블과 Sentence Transformer를 조합해 속성 기반 유사도 모델을 대체하며 상품 추천 CTR 50% 개선

2025년 6월 2일12분intermediate

AI 요약

Context

기존의 속성 기반 유사도 모델은 모든 속성에 동일한 가중치를 적용해 중요도가 낮은 속성의 일치가 과도하게 반영되는 문제가 있었다. 이로 인해 실제로 관련성이 낮은 상품 간에도 유사도가 과대 평가되는 현상이 발생했으며, 신규 상품이나 속성 미보유 상품의 경우 적절한 추천이 어려웠다. 사용자가 상품을 비교할 때 실제로 중요하게 여기는 기준이 반영되지 않았다.

Technical Solution

레이블 생성 방식 변경: 1년의 검색 로그에서 동일 키워드로 검색된 결과 내에서 다중 사용자에게 클릭된 상품 쌍을 유사 레이블로 정의해 약 300만 개의 학습 데이터 확보
모델 아키텍처 도입: paraphrase-multilingual-MiniLM-L12-v2 (118M 파라미터) 기반 Sentence Transformer 구조 적용 및 MultipleNegativesRankingLoss를 통해 positive sample만으로 학습 가능하도록 구성
상품 문서 구조화: 속성, 상품명, 성분 등 다양한 정보를 마크다운 형태로 섹션별로 구성하여 모델이 의미론적으로 상품 정보를 이해하도록 설계
속성 미보유 상품 처리: 속성이 완전한 유사 상품 쌍에서 일부 상품의 속성을 의도적으로 제거하는 augmentation 기법으로 신규 상품과 속성 부족 상품까지 학습 커버리지 확대
정량적 검증 체계 개발: 모델의 attention 분석을 통해 카테고리 내에서는 중요도 속성이 일치하고 카테고리 간에는 차이가 나는지 확인하는 메커니즘 구축

Impact

상품 추천 클릭률(CTR) 기존 모델 대비 약 50% 개선
속성 미보유 상품 추천 커버리지를 0%에서 100%로 확대

Key Takeaway

사용자의 실제 행동 데이터(검색 로그)에서 도메인 규칙 없이 직접 레이블을 생성하면, 도메인 지식 기반 임의 정의보다 모집단 분포에 더 정확히 부합하는 학습 데이터를 확보할 수 있다. 또한 텍스트 기반 언어 모델을 사용하면 속성 간 상대적 중요도를 자동으로 학습해 카테고리별로 다른 가중치를 적용하는 유연성을 확보할 수 있다.

실천 포인트

추천 시스템을 개발하는 팀에서 속성 기반 유사도 계산 방식을 사용할 때, 먼저 사용자의 실제 선택 행동(검색 후 클릭, 장바구니 담기, 구매 등)을 로그로 수집해 high-confidence한 유사 쌍을 추출한 후, 이를 Sentence Transformer 같은 언어 모델의 학습 레이블로 사용하면 고정된 속성 가중치의 한계를 극복할 수 있다.

태그

#label-engineering #sentence-transformer #E-commerce #recommendation system

원문 읽기