Vector DB 기반 Semantic Search를 통한 RAG 데이터 검색 최적화

Day 2 - RAG - What is Vector DB ?

Indumathi R2026년 5월 8일3분beginner

AI 요약

Context

전통적인 키워드 매칭 방식의 한계로 인해 문서의 문맥적 의미를 파악하는 고도화된 검색 체계 필요. 대규모 텍스트 데이터를 효율적으로 처리하기 위해 단순 텍스트 저장이 아닌 수치적 벡터 표현으로의 변환이 요구됨.

Technical Solution

Private PDF 데이터를 특정 기준에 따라 Chunking 처리하여 모델 입력 최적화
Embedding Model을 활용해 텍스트 데이터를 다차원 공간의 벡터 포인트로 변환하는 수학적 표현 방식 채택
Cosine Similarity 등 거리 측정 알고리즘을 적용하여 쿼리 포인트와 가장 인접한 데이터 간의 Semantic Search 구현
전수 조사의 시간 복잡도 문제를 해결하기 위해 ChromaDB, Pinecone, FAISS 등 특화된 Vector DB에 임베딩 데이터 저장
사용자 쿼리를 실시간 임베딩하여 벡터 공간 내 최단 거리 포인트 5개를 추출하는 고밀도 검색 파이프라인 설계

실천 포인트

- 데이터 특성에 맞는 Vector DB 선택 (범용: ChromaDB, 고성능 유사도: FAISS, 이미지: Qdrant) - 거리 측정 알고리즘으로 Cosine Similarity, Euclidean, Manhattan distance 중 데이터 분포에 최적화된 방식 검토 - 검색 정밀도 향상을 위한 적절한 Chunking 전략 및 Embedding Model 선정

태그

원문 읽기