RAG 최적화를 위한 전략적 Chunking 및 PDF 데이터 전처리 파이프라인 설계

RAG - Sliding Window, Token Based Chunking and PDF Chunking Packages

Ramya Perumal2026년 5월 14일4분intermediate

AI 요약

Context

단순 고정 길이 분할 방식으로는 문맥 단절로 인한 Retrieval 품질 저하 문제 발생. 모델별 Token 입력 제한과 임베딩 비용 증가라는 제약 조건 속에서 데이터 특성에 맞는 최적의 분할 전략 필요.

Technical Solution

Sliding Window Chunking 도입을 통한 인접 청크 간 문맥 중첩 유지 및 검색 정확도 향상
Token-Based Chunking 적용으로 LLM의 Context Window 제한 준수 및 비용 최적화
TOON 포맷 및 LLMLingua 활용을 통한 JSON 구조의 Token 중복 제거 및 프롬프트 압축
PyMuPDF 및 Camelot, Tesseract 조합으로 PDF 내 표, 이미지, 다단 레이아웃의 텍스트 추출 정밀도 개선
데이터 성격에 따라 Sliding Window와 Token-Based 방식을 혼합 적용하는 가변적 Chunking 전략 수립

실천 포인트

- 소스코드 등 문맥 전환이 빈번한 데이터셋에는 Sliding Window Chunking 검토 - 임베딩 및 추론 비용 절감이 우선순위일 경우 TOON 포맷이나 프롬프트 압축 프레임워크 도입 - PDF 처리 시 단순 텍스트 추출 전 Camelot(표) 및 Tesseract(OCR) 단계의 전처리 파이프라인 구축

태그

#RAG #LLMLingua #Tokenization #Vector Database #Sliding Window Chunking

원문 읽기