피드로 돌아가기
Dev.toAI/ML
원문 읽기
pgvector와 MCP 기반의 고효율 RAG 및 Agentic Workflow 설계
Building a RAG System from Scratch — Wrap-up and What Comes Next
AI 요약
Context
전용 Vector DB 도입에 따른 인프라 복잡성 증가와 데이터 파편화 문제 해결 필요. LLM의 도구 활용 능력 극대화 및 클라우드 배포 환경에서의 네트워크 제약 사항 해결을 목표로 함.
Technical Solution
- PostgreSQL 기반 pgvector 채택을 통한 SQL과 Vector Search의 단일 쿼리 통합 처리
- pgvector의 HNSW 인덱스 2,000차원 제한에 따른 gemini-embedding-001의 768차원 최적화 적용
- Retrieval Accuracy 향상을 위해 저장 시 RETRIEVAL_DOCUMENT, 검색 시 RETRIEVAL_QUERY의 Asymmetric task_type 설정
- 인덱싱 학습 데이터가 불필요하고 빠른 쿼리 속도를 보장하는 HNSW 알고리즘 선정
- MCP(Model Context Protocol) 도입을 통한 도구 정의의 서버화 및 클라이언트 간 재사용 구조 설계
- Supabase IPv6 제약 해결을 위한 Connection Pooler(Port 6543) 기반의 Render 배포 아키텍처 구성
실천 포인트
1. Vector DB 선정 시 데이터 규모와 SQL 통합 필요성을 고려하여 pgvector 검토
2. Embedding 모델의 차원 수와 Vector 인덱스의 Hard Limit 일치 여부 확인
3. Retrieval 성능 최적화를 위해 Query와 Document의 Embedding task_type 구분 적용
4. Cloud 배포 시 DB Connection Pooler 지원 여부 및 네트워크 프로토콜(IPv4/IPv6) 확인