피드로 돌아가기
Dev.toAI/ML
원문 읽기
Vector DB 기반 Semantic Search를 통한 RAG 데이터 검색 최적화
Day 2 - RAG - What is Vector DB ?
AI 요약
Context
전통적인 키워드 매칭 방식의 한계로 인해 문서의 문맥적 의미를 파악하는 고도화된 검색 체계 필요. 대규모 텍스트 데이터를 효율적으로 처리하기 위해 단순 텍스트 저장이 아닌 수치적 벡터 표현으로의 변환이 요구됨.
Technical Solution
- Private PDF 데이터를 특정 기준에 따라 Chunking 처리하여 모델 입력 최적화
- Embedding Model을 활용해 텍스트 데이터를 다차원 공간의 벡터 포인트로 변환하는 수학적 표현 방식 채택
- Cosine Similarity 등 거리 측정 알고리즘을 적용하여 쿼리 포인트와 가장 인접한 데이터 간의 Semantic Search 구현
- 전수 조사의 시간 복잡도 문제를 해결하기 위해 ChromaDB, Pinecone, FAISS 등 특화된 Vector DB에 임베딩 데이터 저장
- 사용자 쿼리를 실시간 임베딩하여 벡터 공간 내 최단 거리 포인트 5개를 추출하는 고밀도 검색 파이프라인 설계
실천 포인트
- 데이터 특성에 맞는 Vector DB 선택 (범용: ChromaDB, 고성능 유사도: FAISS, 이미지: Qdrant) - 거리 측정 알고리즘으로 Cosine Similarity, Euclidean, Manhattan distance 중 데이터 분포에 최적화된 방식 검토 - 검색 정밀도 향상을 위한 적절한 Chunking 전략 및 Embedding Model 선정