피드로 돌아가기
Part 4: Improving Retrieval Quality with Token-Aware Chunking and HyDE
Dev.toDev.to
AI/ML

Token-aware Chunking 및 HyDE 도입을 통한 RAG 검색 정밀도 향상

Part 4: Improving Retrieval Quality with Token-Aware Chunking and HyDE

Sharath Kurup2026년 4월 26일5intermediate

Context

글자 수 기반 Chunking으로 인한 LLM Token Limit 초과 및 데이터 손실 발생. 모호한 질의 시 Semantic Signal 부족으로 인한 FAISS 검색 정확도 저하와 대화 맥락 유지 실패라는 한계 직면.

Technical Solution

  • tiktoken 활용 Token-aware Chunking 구현을 통한 실제 LLM 입력 제한 기반의 데이터 분할 설계
  • Paragraph $\rightarrow$ Sentence $\rightarrow$ Fallback 순의 계층적 분할 전략으로 Context Density 최적화
  • HyDE(Hypothetical Document Embeddings) 도입을 통해 모호한 질의를 가상 답변으로 확장 후 Embedding 수행
  • Query $\rightarrow$ HyDE $\rightarrow$ Better Query $\rightarrow$ Embedding 순의 파이프라인 변경으로 Semantic Alignment 강화
  • 대화 이력 기반의 Context-aware Retrieval 적용으로 후속 질문 시 이전 참조 페이지 정보 주입
  • MAX_TOKENS(250) 및 OVERLAP_TOKENS(50) 설정을 통한 구조적 Chunk 관리

1. Chunking 기준을 Character가 아닌 모델 전용 Tokenizer 기반으로 변경했는가

2. 모호한 사용자 질의를 처리하기 위한 Query Expansion 또는 HyDE 전략을 검토했는가

3. 후속 질문 처리를 위해 대화 이력의 Context를 검색 쿼리에 명시적으로 결합했는가

원문 읽기