Late Interaction 도입을 통한 RAG Recall 58%에서 81%로의 비약적 상승

When recall plateaus: the late-interaction technique most teams skip

SapotaCorp2026년 5월 24일7분advanced

AI 요약

Context

단일 벡터로 텍스트를 압축하는 Bi-encoder 구조의 정보 손실로 인한 Retrieval Recall 정체 현상 발생. Embedding 모델 교체만으로는 해결 불가능한 아키텍처적 병목 지점 확인.

Technical Solution

토큰별 임베딩을 유지하여 정보 압축 손실을 방지하는 Late Interaction 구조 채택
Query 토큰과 Document 토큰 간의 MaxSim(Maximum Similarity) 합산을 통한 정밀한 유사도 계산
Bi-encoder 기반 1차 검색 후 ColBERT로 상위 50개 후보를 정제하는 Two-stage Reranking 패턴 설계
소규모 코퍼스 대상으로는 PLAID 인덱스 구조를 활용하여 ColBERT 단독 Retriever로 구성
시각적 문서 처리를 위해 페이지 패치 단위 임베딩을 수행하는 ColPali 확장 구조 적용
저장 공간 효율화를 위해 Binary Quantization을 통한 스토리지 비용 32배 절감

실천 포인트

- Recall 60~75% 구간 정체 시 Cross-encoder 또는 ColBERT Reranker 도입 검토 - Latency 예산이 100ms 미만인 실시간 서비스인 경우 Reranker 오버헤드 측정 필요 - 코퍼스 규모 5만 개 미만인 경우 가벼운 Cross-encoder로 우선 검증 - 문서 내 레이아웃과 표가 중요한 경우 ColPali 기반의 Vision-Language Retrieval 고려

태그

#Late Interaction #RAG #ColBERT #Bi-encoder #MaxSim

원문 읽기