피드로 돌아가기
Dev.toAI/ML
원문 읽기
RAG系统实战:从Chunk切分到检索增强全流程解析
이중 의미론적 Chunking 및 BGE-zh-v1.5 기반 RAG 최적화로 First-hit Rate 23% 향상
AI 요약
Context
중국어 텍스트의 특성인 공백 부재와 복잡한 문장 구조로 인한 단순 고정 길이 Chunking의 한계 직면. 단순 분할 시 문맥 단절로 인한 Embedding 벡터의 변별력 저하 및 검색 정확도 하락 문제 발생.
Technical Solution
- 구조적 신호(제목, 공백, 들여쓰기) 기반의 논리 블록 식별 후 문장 부호를 기준으로 2차 절단하는 Double-layer Semantic Chunking 설계
- 경계 정보 손실 방지 및 노이즈 억제를 위해 64자 크기의 Overlap Window 적용
- LangChain의 Pipeline 유연성과 LlamaIndex의 SentenceSplitter 성능을 결합한 하이브리드 파이프라인 구축
- 법률 도메인의 강한 의미 일관성 확보를 위해 Recall@3 81.2%를 기록한 BGE-zh-v1.5 Embedding 모델 채택
- 벡터 공간의 국소적 밀집으로 인한 오검색 해결을 위해 Cross-encoder 기반의 BGE-reranker 도입을 통한 재정렬 수행
- 소규모 LLM을 활용한 원본 Chunk의 요약 압축으로 생성 단계의 노이즈 제거
실천 포인트
- 고정 길이 분할 대신 문장 부호 및 구조적 신호를 반영한 계층적 분할 전략 검토 - Embedding 모델의 출력 차원과 Vector Database 설정 값의 일치 여부 강제 검증 - 단순 Similarity Score 의존을 지양하고 Reranker를 통한 2단계 검증 프로세스 구축 - BLEU 등 생성 지표 외에 Context Relevance와 Faithfulness 기반의 다차원 평가 체계 도입