TF-IDF와 LLM Reranking 결합을 통한 검색 정확도 60%에서 86%로 향상

TF-IDF + LLM Reranking: How I Improved Vector Search Accuracy from 60% to 86%

Rohith Davuluri2026년 4월 25일3분intermediate

AI 요약

Context

순수 Vector Search 기반의 Semantic Search 도입 결과, 금융 컴플라이언스 맥락의 정밀도 부족으로 인해 약 60%의 낮은 정확도 기록. 의미적으로 유사하나 문맥상 부적절한 결과가 반환되는 Vector Search의 한계 노출.

Technical Solution

TF-IDF 기반의 1차 필터링을 통한 Exact Keyword Match 확보 및 후보군 20개 추출
SentenceTransformer(all-MiniLM-L6-v2)를 활용한 2차 Re-scoring으로 후보군을 상위 5개로 압축
Gemini-2.0-Flash 모델에 도메인 컨텍스트 프롬프트를 적용하여 최적의 결과물을 결정하는 LLM Reranking 단계 구축
Keyword Precision, Semantic Similarity, Domain Reasoning을 단계적으로 결합한 계층적 검색 파이프라인 설계
단순 수학적 유사도 계산의 한계를 LLM의 추론 능력을 통해 보완하는 하이브리드 구조 채택

실천 포인트

- 검색 대상이 법률, 의료, 금융 등 전문 용어 비중이 높은 도메인인지 확인 - 정밀도 향상을 위해 TF-IDF와 같은 전통적 키워드 기반 검색의 병행 검토 - LLM 호출 비용과 응답 속도(Latency) 대비 정확도 향상 폭의 Trade-off 분석 - 후보군을 단계적으로 줄여나가는 Cascade 구조의 Reranking 파이프라인 적용

태그

#Hybrid Search #TF-IDF #vector-embedding #Semantic Search #LLM Reranking

원문 읽기