피드로 돌아가기
Day 3 - Chunking - RAG
Dev.toDev.to
AI/ML

RAG 검색 정밀도 향상을 위한 Chunking 전략 및 Overlapping 설계

Day 3 - Chunking - RAG

Indumathi R2026년 5월 10일3beginner

Context

대규모 문서를 단일 벡터로 Embedding 할 시 특정 쿼리에 대한 정밀한 정보 추출이 불가능한 한계 존재. 전체 문장을 하나의 포인트로 저장함으로써 불필요한 정보가 포함된 전체 텍스트가 반환되는 검색 노이즈 발생.

Technical Solution

  • 정보 손실 최소화를 위해 대규모 문서를 작은 단위로 분할하는 Chunking 도입
  • 단순 글자 수 기반의 Fixed Chunking 대신 문장 종결자 기준 분할로 의미적 완전성 확보
  • 문맥 단절 방지를 위해 인접 Chunk 간 일부 텍스트를 공유하는 Overlapping 기법 적용
  • 텍스트 간의 의미적 유사도가 높음에도 벡터 공간상 거리가 멀어지는 현상을 Overlapping을 통해 완화
  • Discrete Chunking과 Semantic Chunking이라는 두 가지 분할 접근 방식을 통한 최적의 Chunk 사이즈 탐색

- 단순 글자 수 기반 분할 시 단어 절단으로 인한 의미 손실 여부 검토 - 문장 단위 분할(Sentence-based splitting)을 통한 최소 의미 단위 확보 - 인접 Chunk 간 Overlap 구간을 설정하여 문맥적 연결성 유지 및 검색 재현율 개선

원문 읽기