피드로 돌아가기
RAG Architecture with n8n + PostgreSQL (pgvector) + Ollama Gemma4 on AWS EC2
Dev.toDev.to
AI/ML

AWS EC2 기반 n8n과 pgvector를 활용한 프라이빗 RAG 아키텍처 구축

RAG Architecture with n8n + PostgreSQL (pgvector) + Ollama Gemma4 on AWS EC2

Fernando2026년 5월 22일7intermediate

Context

기업 내부 문서의 보안 유지와 LLM의 Hallucination 방지를 위한 Private AI 환경 필요성 증대. 기존 키워드 기반 검색의 한계를 극복하고 대규모 문서의 문맥적 의미를 효율적으로 처리하는 Retrieval-Augmented Generation 구조 설계가 요구됨.

Technical Solution

  • n8n을 Orchestrator로 활용하여 데이터 수집부터 임베딩까지의 전 과정을 자동화한 Ingestion Workflow 구축
  • 1,000자 크기의 Chunk 및 200자 Overlap 설정을 통한 Semantic Continuity 유지 및 LLM Token Limit 제약 해결
  • PostgreSQL pgvector를 도입하여 관계형 데이터베이스 내에서 Cosine Similarity 기반의 Semantic Search를 직접 수행
  • Orchestration 서버(EC2 #1)와 AI 워크로드 서버(EC2 #2, GPU g6e.2xlarge)를 분리하여 리소스 간섭 제거 및 독립적 Scalability 확보
  • Ollama를 통한 Gemma4 모델 서빙으로 API 인터페이스 표준화 및 로컬 LLM 운영 복잡도 감소
  • Ground Truth Data 기반의 Prompt Engineering을 적용하여 모델 응답의 신뢰성 확보 및 Hallucination 억제

1. 문서 분할 시 문맥 유실 방지를 위한 적절한 Chunk Overlap 비율 설정 검토

2. AI 모델 추론 부하에 따른 Orchestration 계층과 Inference 계층의 서버 분리 설계

3. 검색 정밀도 향상을 위한 pgvector의 Cosine Similarity 인덱싱 적용

4. 데이터 보안을 위한 VPC 내부 통신 및 EBS 암호화 적용 여부 확인

원문 읽기