피드로 돌아가기
Dev.toAI/ML
원문 읽기
Embedding 모델 교체보다 Chunking 전략 최적화 통한 검색 효율 극대화
Chunking in RAG: why your splitter matters more than your embedding model
AI 요약
Context
RAG 시스템 구축 시 임베딩 모델이나 Reranker 교체에 집중하는 경향이 있으나, 실제 검색 품질의 병목은 데이터 분할 단계인 Chunking에서 발생. 단순한 Semantic Chunking은 높은 연산 비용 대비 성능 이득이 미미하며, 오히려 Chunk Size와 Overlap 설정이 검색 정확도에 지배적인 영향을 미침.
Technical Solution
- Recursive Character Splitting을 기본 전략으로 채택하여 문단, 문장, 단어 순의 계층적 분할 수행
- Markdown Header 등 문서 자체 구조를 활용한 Document-structure-aware 분할로 메타데이터 기반 필터링 효율 확보
- 각 Chunk에 LLM을 이용해 50-100 토큰의 문서 전체 맥락을 요약해 추가하는 Contextual Retrieval 아키텍처 도입
- 단순 알고리즘 개선 대신 실제 데이터셋 기반의 Chunk Size Sweep 테스트를 통한 최적 파라미터 도출
- Vector Index와 BM25를 결합한 Hybrid Search 및 Cross-encoder 기반의 Reranking 단계 적층 설계
실천 포인트
1. Recursive Character Splitter(Size 800, Overlap 100)로 베이스라인 설정
2. 문서 구조(Markdown 등) 메타데이터 보존 여부 확인
3. Haiku 등 경량 모델을 통한 Chunk별 Contextual Augmentation 적용
4. 실제 유저 로그 기반 100개 쿼리 평가셋 구축 및 Chunk Size Sweep 수행
5. Vector + BM25 하이브리드 검색 및 Top-20 Reranking 파이프라인 검토