Show GN: 반품랩탑 - AI가 다나와 데이터와 오픈마켓 반품 특가를 매핑해 진짜 가성비 반품 노트북을 찾아주는 서...

BM25와 LLM을 결합한 비정형 데이터 정규화 및 가성비 랭킹 시스템 구축

chlrhdmltkfkd2026년 4월 2일3분intermediate

AI 요약

Context

오픈마켓별로 상이한 상품 명칭과 다나와 스펙 정보 간의 불일치 발생. 단순 정규식이나 DB Join만으로는 이기종 플랫폼 간 데이터 매핑에 한계 직면. 단순 할인율 중심의 정렬로 인해 구형 모델이 상단에 노출되는 정보 왜곡 문제 존재.

LLM을 단순 챗봇 인터페이스가 아닌 데이터 파이프라인 내부의 정규화 파서 및 매처로 활용하여 비정형 데이터의 구조화 문제를 해결하는 전략.

실천 포인트

방대한 데이터셋에서 LLM 비용을 최적화하려면 BM25와 같은 경량 검색 알고리즘으로 후보군을 1차 필터링한 후 LLM에 컨텍스트를 전달할 것

태그