피드로 돌아가기
Dev.toDatabase
원문 읽기
Manticore 23.0.0 bigram_index를 통한 모델명 Tokenization Mismatch 해결
How to Make xt850 Match xt 850
AI 요약
Context
제품 검색 시 사용자가 입력하는 'xt850'과 같은 glued query가 인덱스 내 'xt 850'과 같이 분리된 토큰 구조와 일치하지 않는 Tokenization Mismatch 발생. 기존의 필드 복제나 커스텀 정규화 방식은 관리 복잡도와 저장 공간 낭비를 초래하는 한계 존재.
Technical Solution
- 인접한 토큰 쌍을 탐색하여 glued form으로 추가 인덱싱하는 bigram_index 메커니즘 도입
- bigram_delimiter 설정을 'both'로 지정하여 내부 Phrase Optimization용 델리미터와 사용자용 glued 토큰을 동시에 유지
- second_numeric 모드를 통해 두 번째 토큰이 ASCII digits로만 구성된 모델명(예: Galaxy 24)에 최적화된 매칭 구현
- second_has_digit 모드를 적용하여 숫자와 문자가 혼합된 모델명(예: iPhone 5se, EOS 80d)까지 대응 범위 확장
- 별도의 전처리 파이프라인 없이 엔진 수준에서 인덱싱 단계의 구조적 해결책 마련
실천 포인트
- 모델명 검색 시 숫자 포함 여부에 따라 second_numeric과 second_has_digit 중 선택적 적용 - Phrase Search 성능과 Glued Query 매칭을 동시에 확보하기 위해 bigram_delimiter=both 설정 검토 - Morphology(Stemming)나 Wordforms 적용 시 실제 쿼리 쉐이프에 따른 매칭 결과 검증 필요