Sentence Transformers v5가 Sparse Embedding 모델 학습 기능을 추가하여 30,000+ 차원의 고차원 희소 벡터 기반 검색 시스템 구축 지원

Training and Finetuning Sparse Embedding Models with Sentence Transformers v5

2025년 7월 1일12분intermediate

AI 요약

Context

기존 Sentence Transformers는 Dense Embedding(384~1024 차원)과 Cross Encoder(리랭커) 모델만 지원했다. 하이브리드 검색이나 검색-리랭킹 시나리오에서 낮은 비용의 희소 임베딩 모델이 필요했다.

Technical Solution

Sparse Embedding 모델 학습 지원: 30,000+ 차원의 고차원 희소 벡터 생성으로 인덱싱 및 검색 시 해석 가능성 제공
SparseEncoder 클래스 도입: 기존 Dense Embedding 모델과 동일한 API 구조로 학습, 인코딩, 유사도 계산, 디코딩 수행 가능
쿼리/문서 확장(Query/Document Expansion) 기능: 신경망 기반 희소 임베딩이 원본 텍스트를 의미론적으로 관련된 토큰으로 자동 확장
교차점 계산(Intersection) 메서드: 두 임베딩 간의 공통 활성화 차원을 추출하여 유사성 또는 비유사성 이유 파악 가능
다양한 학습 데이터셋 지원: MS MARCO, STS(Semantic Textual Similarity), NLI(자연어 추론), Quora Duplicate Questions 등 기존 IR 및 유사도 기반 데이터셋 활용

Key Takeaway

Sparse Embedding 모델은 Dense 모델 대비 높은 차원성으로 인해 각 활성 차원이 특정 어휘에 대응되므로 검색 결과의 해석 가능성이 우수하며, BM25 같은 전통적 어휘 기반 방식과 달리 의미론적 확장을 통해 하이브리드 검색 시스템의 효율성을 높일 수 있다.

실천 포인트

정보 검색 시스템을 구축하는 팀에서 Sentence Transformers v5의 SparseEncoder를 활용하면 저비용의 희소 임베딩 모델을 자체 데이터로 미세조정할 수 있으며, decode() 메서드로 각 검색 결과가 어떤 토큰에 기반했는지 추적 가능해 검색 품질 개선 시 디버깅 시간을 단축할 수 있다.

태그

#Sentence Transformers #Sparse Embedding #Neural IR #Information Retrieval #Model Training

원문 읽기