리디 추천 시스템 Phase 2 – Feature Store 도입기

리디가 Feature Store를 도입해 데이터 파이프라인을 독립화하고 모듈화하여 키워드 추천 개발을 3일로 단축하고 클릭률 1.8배, 유료 전환율 1.9배 증가

희주 홍2024년 4월 25일9분intermediate

AI 요약

Context

리디의 월별 신규 콘텐츠 등록량이 약 7만 개에 도달하면서 개인 맞춤형 추천의 필요성이 대두되었습니다. 기존 시스템은 단일 ML 알고리즘 기반의 도서 추천만 지원했고, 추천 도메인별로 독립적인 데이터 파이프라인을 운영하면서 코드 가독성 저하, 레거시 축적, 높은 관리 비용 문제를 겪고 있었습니다. 새로운 알고리즘 실험 사이클이 길어 개발 효율성이 심각하게 저해되고 있었습니다.

Technical Solution

Feature Store 프레임워크 도입: 머신러닝 파이프라인에 필요한 피처를 중앙 집중식으로 저장·관리하여 데이터 일관성 유지 및 실험 사이클 단축
Offline Feature Store만 우선 구현: Online Store 및 실시간 모델 서빙은 제외하고 배치 처리 기반 오프라인 저장소에 집중
데이터 파이프라인 독립화: 용도가 다른 파이프라인 간의 의존성을 제거하고 각 파이프라인에 독립적인 오류 처리 메커니즘 구현
데이터 4단계 계층화: 원시 데이터 → 원천 데이터(전처리) → 피처 데이터(Level 1: ML/정책 기반, Level 2: DL 기반) → 추천 결과로 단방향 비순환 구조 설계
역할 분리 아키텍처: 데이터 엔지니어가 원천 데이터 준비, 데이터 사이언티스트가 피처 선택 및 모델 개발하도록 중간 매개 계층 역할

Impact

키워드 추천 개발 기간: 데이터 준비부터 고품질 샘플 생성까지 3일 단축
실험군 클릭률: 대조군 대비 1.8배 증가
유료 전환율: 대조군 대비 1.9배 증가

Key Takeaway

Feature Store의 핵심 가치는 기술 도입 자체가 아니라 데이터 엔지니어와 데이터 사이언티스트 간의 역할 경계를 명확히 하고, 데이터를 재사용 가능한 계층으로 설계하는 조직 구조 개선입니다. 이를 통해 알고리즘 개발에만 리소스를 집중시켜 실험 속도를 극적으로 단축할 수 있습니다.

실천 포인트

추천 시스템이나 ML 파이프라인을 운영 중인 팀에서 기존에 도메인별로 분산된 데이터 파이프라인을 운영하고 있다면, 원시 데이터 → 전처리된 원천 데이터 → 알고리즘별 피처 → 최종 결과물로 이어지는 명확한 계층 구조를 도입하면 새로운 추천 도메인 추가 시 데이터 준비 시간을 50% 이상 단축하고 개발 팀의 집중도를 높일 수 있습니다.

태그

#Data Pipeline #ML Architecture #recommendation system #Feature Store

원문 읽기