피드로 돌아가기
Dev.toAI/ML
원문 읽기
Ollama 기반 Local RAG 전략 비교를 통한 최적 Orchestration 도출
Build a RAG agent with LangChain and Ollama
AI 요약
Context
기존 RAG 튜토리얼의 소규모 인공 데이터셋 기반 검증 한계를 극복하기 위해 DEV.to API의 실제 포스트 데이터를 활용한 검증 체계 구축. 외부 Embedding API의 Quota 제한 문제를 해결하고 반복 가능한 로컬 환경을 보장하기 위한 아키텍처 설계가 필요했음.
Technical Solution
- Ollama의 nomic-embed-text를 도입하여 Embedding 프로세스를 Local화함으로써 API 제약 제거 및 인덱싱 반복성 확보
- Markdown-aware Chunking을 적용해 헤더 기반의 구조적 분할을 수행함으로써 섹션 경계 및 메타데이터 보존을 통한 인용 정확도 향상
- Content-hash Dedup 메커니즘을 구축하여 변경되지 않은 문서의 재임베딩을 방지하는 효율적 인덱싱 파이프라인 설계
- Tool-calling Agent, Always-retrieve Chain, Corrective RAG(CRAG)의 세 가지 전략을 동일한 Corpus와 Model 환경에서 비교 분석하는 벤치마크 하네스 구현
- SqliteSaver를 통한 Persistent Thread 관리로 상태 유지형 대화 인터페이스 구현 및 LangSmith 기반의 Trace 분석 체계 도입
실천 포인트
- 데이터셋의 구조가 명확한 경우 일반 텍스트 분할 대신 Markdown 헤더 기반 Chunking 검토 - Embedding API 비용 및 Quota 문제가 예상될 경우 Ollama 등 Local Embedding 모델 도입 고려 - RAG 전략 선택 시 단순성/예측 가능성은 Chain, 다중 도구 활용 및 유연성은 Agent, 리트리벌 품질 개선은 CRAG 순으로 적용