피드로 돌아가기
Dev.toAI/ML
원문 읽기
Late Interaction 도입을 통한 RAG Recall 58%에서 81%로의 비약적 상승
When recall plateaus: the late-interaction technique most teams skip
AI 요약
Context
단일 벡터로 텍스트를 압축하는 Bi-encoder 구조의 정보 손실로 인한 Retrieval Recall 정체 현상 발생. Embedding 모델 교체만으로는 해결 불가능한 아키텍처적 병목 지점 확인.
Technical Solution
- 토큰별 임베딩을 유지하여 정보 압축 손실을 방지하는 Late Interaction 구조 채택
- Query 토큰과 Document 토큰 간의 MaxSim(Maximum Similarity) 합산을 통한 정밀한 유사도 계산
- Bi-encoder 기반 1차 검색 후 ColBERT로 상위 50개 후보를 정제하는 Two-stage Reranking 패턴 설계
- 소규모 코퍼스 대상으로는 PLAID 인덱스 구조를 활용하여 ColBERT 단독 Retriever로 구성
- 시각적 문서 처리를 위해 페이지 패치 단위 임베딩을 수행하는 ColPali 확장 구조 적용
- 저장 공간 효율화를 위해 Binary Quantization을 통한 스토리지 비용 32배 절감
실천 포인트
- Recall 60~75% 구간 정체 시 Cross-encoder 또는 ColBERT Reranker 도입 검토 - Latency 예산이 100ms 미만인 실시간 서비스인 경우 Reranker 오버헤드 측정 필요 - 코퍼스 규모 5만 개 미만인 경우 가벼운 Cross-encoder로 우선 검증 - 문서 내 레이아웃과 표가 중요한 경우 ColPali 기반의 Vision-Language Retrieval 고려