피드로 돌아가기
Dev.toAI/ML
원문 읽기
임계값 기반 Semantic Chunking을 통한 RAG 컨텍스트 정밀도 향상
Day 4 - Chunking continued - RAG
AI 요약
Context
단순 Overlapping 방식의 Chunking 사용 시 서로 다른 주제의 문단이 강제로 결합되는 문제 발생. 이로 인해 RAG 시스템 내에서 불필요한 노이즈가 포함되어 검색 정확도가 저하되는 한계 존재.
Technical Solution
- 문장 간 의미적 유사도를 측정하여 Chunk 경계를 결정하는 Semantic Chunking 도입
- LLM 기반 Embedding을 통한 문장 간 상관관계 수치화 및 비교 로직 구현
- 유사도 임계값을 0.75로 설정하여 관련성 높은 문장만 동일 Chunk에 그룹화
- nltk 패키지를 활용한 텍스트 분리 및 전처리 프로세스 구성
- 데이터셋 특성에 따라 최적의 Chunking 전략을 결정하는 Trial and Error 검증 체계 적용
실천 포인트
- 데이터셋의 주제 전환 빈도를 분석하여 유사도 임계값(Threshold) 최적화 - 단순 고정 길이 Chunking 대신 LLM Embedding 기반의 의미론적 분할 검토 - RAG 파이프라인 구축 시 데이터 도메인별 최적 Chunking 전략 수립 및 실험 수행