Exact Match 기반 Sparse Embedding의 구조적 진화와 한계 분석

Day 8 - Sparse embedding - RAG

Indumathi R2026년 5월 26일2분beginner

AI 요약

Context

문맥적 의미보다 특정 단어의 정확한 일치(Exact Match)가 중요한 검색 환경의 필요성 대두. Dense Embedding의 연속적 수치 표현으로는 해결 불가능한 이진 분류 및 키워드 매칭 요구사항 존재.

Technical Solution

전체 Vocabulary 크기에 비례하는 고정 길이 벡터를 생성하는 Sparse Embedding 설계
토큰 존재 여부를 0과 1로 표시하여 단어의 출현 여부만 판단하는 Binary Classification 구조 채택
특정 단어의 단순 존재 여부를 넘어 문서 내 중요도를 반영하기 위한 Term Frequency 기법 도입
토큰 빈도수를 전체 토큰 수로 나누어 정규화함으로써 문서 길이에 따른 가중치 편향 방지
단어 반복 횟수에 따른 가중치 부여로 단순 이진 벡터의 정보 손실 문제 해결

실천 포인트

- 정확한 키워드 매칭이 필수적인 도메인에서 Dense Embedding의 보완재로 Sparse Embedding 검토 - Term Frequency 적용 시 특정 단어의 과도한 반복으로 인한 검색 결과 왜곡 가능성 검증 - Vocabulary 사이즈 증가에 따른 벡터 희소성(Sparsity)과 메모리 효율성 간의 Trade-off 분석

태그

#Term Frequency #Sparse Embedding #RAG #Vectorization #Tokenization

원문 읽기