Manticore 23.0.0 bigram_index를 통한 모델명 Tokenization Mismatch 해결

How to Make xt850 Match xt 850

Sergey Nikolaev2026년 5월 8일8분intermediate

AI 요약

Context

제품 검색 시 사용자가 입력하는 'xt850'과 같은 glued query가 인덱스 내 'xt 850'과 같이 분리된 토큰 구조와 일치하지 않는 Tokenization Mismatch 발생. 기존의 필드 복제나 커스텀 정규화 방식은 관리 복잡도와 저장 공간 낭비를 초래하는 한계 존재.

Technical Solution

인접한 토큰 쌍을 탐색하여 glued form으로 추가 인덱싱하는 bigram_index 메커니즘 도입
bigram_delimiter 설정을 'both'로 지정하여 내부 Phrase Optimization용 델리미터와 사용자용 glued 토큰을 동시에 유지
second_numeric 모드를 통해 두 번째 토큰이 ASCII digits로만 구성된 모델명(예: Galaxy 24)에 최적화된 매칭 구현
second_has_digit 모드를 적용하여 숫자와 문자가 혼합된 모델명(예: iPhone 5se, EOS 80d)까지 대응 범위 확장
별도의 전처리 파이프라인 없이 엔진 수준에서 인덱싱 단계의 구조적 해결책 마련

실천 포인트

- 모델명 검색 시 숫자 포함 여부에 따라 second_numeric과 second_has_digit 중 선택적 적용 - Phrase Search 성능과 Glued Query 매칭을 동시에 확보하기 위해 bigram_delimiter=both 설정 검토 - Morphology(Stemming)나 Wordforms 적용 시 실제 쿼리 쉐이프에 따른 매칭 결과 검증 필요

태그

#Manticore Search #Bigram Index #Tokenization #Search Optimization #Information Retrieval

원문 읽기