피드로 돌아가기
Dev.toAI/ML
원문 읽기
Cosine Similarity 기반 Item-based CF로 장르 일치율 81.5% 달성
Construyendo un recomendador de películas en Python: de los datos al modelo
AI 요약
Context
방대한 콘텐츠 카탈로그 내 사용자 맞춤형 아이템 발견을 위한 추천 시스템 설계 필요성 대두. 데이터 희소성(Sparsity)으로 인한 추천 품질 저하 및 Cold Start 문제 해결이 핵심 과제.
Technical Solution
- 데이터 노이즈 제거를 위해 영화 최소 20건, 사용자 최소 10건의 Rating 조건을 적용한 필터링 수행
- User-Item Matrix 구조에서 Item 간 유사도를 측정하는 Item-based Collaborative Filtering 전략 채택
- 벡터 간 각도를 이용한 Cosine Similarity 연산을 통해 아이템 간 유사도 점수 산출
- Streamlit 인터페이스 및 FastAPI를 통한 추천 로직의 API 추상화 및 서비스 레이어 분리
- 데이터 희소성 완화를 위해 2.75% 밀도의 정제된 Matrix를 활용한 추천 최적화
실천 포인트
1. 추천 시스템 설계 시 Matrix Density를 확인하여 데이터 희소성 수준 파악
2. Cold Start 방지를 위해 최소 인터랙션 임계값(Threshold) 설정 및 필터링 적용
3. 추천 결과의 정성적 평가를 위해 도메인 특성(예: 장르) 기반의 일치율 검증 단계 포함
4. 실시간 추론 성능 향상을 위해 유사도 행렬(Similarity Matrix)의 Pre-computation 검토