피드로 돌아가기
Dev.toAI/ML
원문 읽기
TF-IDF와 LLM Reranking 결합을 통한 검색 정확도 60%에서 86%로 향상
TF-IDF + LLM Reranking: How I Improved Vector Search Accuracy from 60% to 86%
AI 요약
Context
순수 Vector Search 기반의 Semantic Search 도입 결과, 금융 컴플라이언스 맥락의 정밀도 부족으로 인해 약 60%의 낮은 정확도 기록. 의미적으로 유사하나 문맥상 부적절한 결과가 반환되는 Vector Search의 한계 노출.
Technical Solution
- TF-IDF 기반의 1차 필터링을 통한 Exact Keyword Match 확보 및 후보군 20개 추출
- SentenceTransformer(all-MiniLM-L6-v2)를 활용한 2차 Re-scoring으로 후보군을 상위 5개로 압축
- Gemini-2.0-Flash 모델에 도메인 컨텍스트 프롬프트를 적용하여 최적의 결과물을 결정하는 LLM Reranking 단계 구축
- Keyword Precision, Semantic Similarity, Domain Reasoning을 단계적으로 결합한 계층적 검색 파이프라인 설계
- 단순 수학적 유사도 계산의 한계를 LLM의 추론 능력을 통해 보완하는 하이브리드 구조 채택
실천 포인트
- 검색 대상이 법률, 의료, 금융 등 전문 용어 비중이 높은 도메인인지 확인 - 정밀도 향상을 위해 TF-IDF와 같은 전통적 키워드 기반 검색의 병행 검토 - LLM 호출 비용과 응답 속도(Latency) 대비 정확도 향상 폭의 Trade-off 분석 - 후보군을 단계적으로 줄여나가는 Cascade 구조의 Reranking 파이프라인 적용