피드로 돌아가기
올리브영 사용자 행동 데이터로 학습한 상품 유사도 언어 모델: 전통적 속성 기반 추천을 넘어선 의미론적 유사도 모델링
올리브영 테크블로그올리브영 테크블로그
AI/ML

올리브영 사용자 행동 데이터로 학습한 상품 유사도 언어 모델: 전통적 속성 기반 추천을 넘어선 의미론적 유사도 모델링

올리브영이 사용자 검색 행동 데이터로 생성한 레이블과 Sentence Transformer를 조합해 속성 기반 유사도 모델을 대체하며 상품 추천 CTR 50% 개선

2025년 6월 2일12intermediate

Context

기존의 속성 기반 유사도 모델은 모든 속성에 동일한 가중치를 적용해 중요도가 낮은 속성의 일치가 과도하게 반영되는 문제가 있었다. 이로 인해 실제로 관련성이 낮은 상품 간에도 유사도가 과대 평가되는 현상이 발생했으며, 신규 상품이나 속성 미보유 상품의 경우 적절한 추천이 어려웠다. 사용자가 상품을 비교할 때 실제로 중요하게 여기는 기준이 반영되지 않았다.

Technical Solution

  • 레이블 생성 방식 변경: 1년의 검색 로그에서 동일 키워드로 검색된 결과 내에서 다중 사용자에게 클릭된 상품 쌍을 유사 레이블로 정의해 약 300만 개의 학습 데이터 확보
  • 모델 아키텍처 도입: paraphrase-multilingual-MiniLM-L12-v2 (118M 파라미터) 기반 Sentence Transformer 구조 적용 및 MultipleNegativesRankingLoss를 통해 positive sample만으로 학습 가능하도록 구성
  • 상품 문서 구조화: 속성, 상품명, 성분 등 다양한 정보를 마크다운 형태로 섹션별로 구성하여 모델이 의미론적으로 상품 정보를 이해하도록 설계
  • 속성 미보유 상품 처리: 속성이 완전한 유사 상품 쌍에서 일부 상품의 속성을 의도적으로 제거하는 augmentation 기법으로 신규 상품과 속성 부족 상품까지 학습 커버리지 확대
  • 정량적 검증 체계 개발: 모델의 attention 분석을 통해 카테고리 내에서는 중요도 속성이 일치하고 카테고리 간에는 차이가 나는지 확인하는 메커니즘 구축

Impact

  • 상품 추천 클릭률(CTR) 기존 모델 대비 약 50% 개선
  • 속성 미보유 상품 추천 커버리지를 0%에서 100%로 확대

Key Takeaway

사용자의 실제 행동 데이터(검색 로그)에서 도메인 규칙 없이 직접 레이블을 생성하면, 도메인 지식 기반 임의 정의보다 모집단 분포에 더 정확히 부합하는 학습 데이터를 확보할 수 있다. 또한 텍스트 기반 언어 모델을 사용하면 속성 간 상대적 중요도를 자동으로 학습해 카테고리별로 다른 가중치를 적용하는 유연성을 확보할 수 있다.


추천 시스템을 개발하는 팀에서 속성 기반 유사도 계산 방식을 사용할 때, 먼저 사용자의 실제 선택 행동(검색 후 클릭, 장바구니 담기, 구매 등)을 로그로 수집해 high-confidence한 유사 쌍을 추출한 후, 이를 Sentence Transformer 같은 언어 모델의 학습 레이블로 사용하면 고정된 속성 가중치의 한계를 극복할 수 있다.

원문 읽기
올리브영 사용자 행동 데이터로 학습한 상품 유사도 언어 모델: 전통적 속성 기반 추천을 넘어선 의미론적 유사도 모델링 | Devpick