피드로 돌아가기
Dev.toAI/ML
원문 읽기
Exact Match 기반 Sparse Embedding의 구조적 진화와 한계 분석
Day 8 - Sparse embedding - RAG
AI 요약
Context
문맥적 의미보다 특정 단어의 정확한 일치(Exact Match)가 중요한 검색 환경의 필요성 대두. Dense Embedding의 연속적 수치 표현으로는 해결 불가능한 이진 분류 및 키워드 매칭 요구사항 존재.
Technical Solution
- 전체 Vocabulary 크기에 비례하는 고정 길이 벡터를 생성하는 Sparse Embedding 설계
- 토큰 존재 여부를 0과 1로 표시하여 단어의 출현 여부만 판단하는 Binary Classification 구조 채택
- 특정 단어의 단순 존재 여부를 넘어 문서 내 중요도를 반영하기 위한 Term Frequency 기법 도입
- 토큰 빈도수를 전체 토큰 수로 나누어 정규화함으로써 문서 길이에 따른 가중치 편향 방지
- 단어 반복 횟수에 따른 가중치 부여로 단순 이진 벡터의 정보 손실 문제 해결
실천 포인트
- 정확한 키워드 매칭이 필수적인 도메인에서 Dense Embedding의 보완재로 Sparse Embedding 검토 - Term Frequency 적용 시 특정 단어의 과도한 반복으로 인한 검색 결과 왜곡 가능성 검증 - Vocabulary 사이즈 증가에 따른 벡터 희소성(Sparsity)과 메모리 효율성 간의 Trade-off 분석