피드로 돌아가기
GeekNewsAI/ML
원문 읽기
Show GN: 반품랩탑 - AI가 다나와 데이터와 오픈마켓 반품 특가를 매핑해 진짜 가성비 반품 노트북을 찾아주는 서...
BM25와 LLM을 결합한 비정형 데이터 정규화 및 가성비 랭킹 시스템 구축
AI 요약
Context
오픈마켓별로 상이한 상품 명칭과 다나와 스펙 정보 간의 불일치 발생. 단순 정규식이나 DB Join만으로는 이기종 플랫폼 간 데이터 매핑에 한계 직면. 단순 할인율 중심의 정렬로 인해 구형 모델이 상단에 노출되는 정보 왜곡 문제 존재.
Technical Solution
- BM25 알고리즘 기반의 1차 텍스트 유사도 검색으로 다나와 DB 내 후보 모델군 추출
- Qwen 3.5 LLM을 활용하여 후보 모델의 문맥을 해석하고 정확한 고유 파생 모델(pcode)을 매칭하는 2-Step 파이프라인 설계
- 백그라운드 워커를 통해 다나와의 긴 텍스트 스펙을 실시간 JSON 구조로 변환하는 정규화 프로세스 구축
- MongoDB Aggregation Pipeline 내부에 할인율, 성능 수치, 현재가, 출시 연도를 조합한 히든 스코어 계산 로직 구현
- 모델 출시 연도에 따른 가중치(22년 이전 -50점, 25~26년 +20점)를 적용하여 실질적 가성비 중심의 랭킹 시스템 최적화
- Zustand와 Next.js 파라미터 연동을 통한 다중 스펙 필터의 즉각적인 상태 반영 구조 설계
Key Takeaway
LLM을 단순 챗봇 인터페이스가 아닌 데이터 파이프라인 내부의 정규화 파서 및 매처로 활용하여 비정형 데이터의 구조화 문제를 해결하는 전략.
실천 포인트
방대한 데이터셋에서 LLM 비용을 최적화하려면 BM25와 같은 경량 검색 알고리즘으로 후보군을 1차 필터링한 후 LLM에 컨텍스트를 전달할 것