피드로 돌아가기
Dev.toDatabase
원문 읽기
Aurora pgvector와 Semantic Cache를 통한 RAG 응답 지연 시간 단축
Getting Started with Vector Databases Using Amazon Aurora PostgreSQL + pgvector
AI 요약
Context
전통적인 Relational Database의 Exact Match 검색 방식으로는 자연어의 의미론적 유사성 파악이 불가능한 한계 존재. LLM의 학습 데이터 외 최신 정보나 내부 문서를 참조해야 하는 RAG 환경에서 효율적인 외부 지식 검색 엔진의 필요성 증대.
Technical Solution
- Embedding Model을 통한 텍스트 데이터의 다차원 Vector 변환 및 벡터 공간 내 거리 기반 검색 구조 설계
- Aurora PostgreSQL 기반 pgvector 확장을 사용하여 SQL 인터페이스와 Vector Search 기능을 통합한 접근성 확보
- 대량 데이터 적재 시 인덱스 생성 비용 최적화를 위해 'Drop Index → Data Insert → Bulk Create Index' 패턴 적용
- Cosine Similarity를 이용한 Semantic Closeness 계산으로 키워드 불일치 시에도 의미적 유사 문서 추출
- MemoryDB 기반 Semantic Cache 레이어를 도입하여 유사 쿼리에 대해 FM 호출 없이 즉각 응답하는 캐싱 전략 수립
- Vectorization $\rightarrow$ Cache Lookup $\rightarrow$ Vector DB Search $\rightarrow$ FM Inference로 이어지는 단계적 RAG 파이프라인 구성
실천 포인트
1. RAG 도입 시 Aurora pgvector를 통해 기존 SQL 스택 유지 및 학습 곡선 최소화 검토
2. 대규모 벡터 데이터 적재 시 인덱스 생성 시점을 조정하여 Ingestion 성능 최적화
3. 반복적인 유사 질문 패턴 분석 후 MemoryDB 기반 Semantic Cache 도입을 통한 API 비용 절감 고려