피드로 돌아가기
Dev.toAI/ML
원문 읽기
연구진이 쿼리 벡터를 탐색 단계마다 동적으로 변형하는 Induced-Fit Retrieval을 통해 다중홉 검색 성능을 기존 정적 RAG 대비 14.3% 향상시켰다
Beyond Static RAG: Using 1958 Biochemistry to Beat Multi-Hop Retrieval by 14%
AI 요약
Context
기존 RAG는 정적 쿼리-문서 매칭에 의존한다. 쿼리와 필요한 정보가 시맨틱하게 멀리 떨어져 있으면 벡터 검색으로 검색할 수 없다. 검색 품질과 응답 속도 간의 트레이드오프도 존재한다.
Technical Solution
- 고정 쿼리 벡터 대신 각 홉마다 노드 임베딩에 기반해 벡터가 동적으로 변형된다
- 고차원 임베딩 공간의 "곡선 다양체"를 따라가며 의미적으로 멀리 있지만 논리적으로 연결된 정보를 발견한다
- Daniel Koshland의 1958년 induced fit 모델에서 영감을 받았으며, 효소가 기질과 결합할 때 구조를 변화시키는 원리를 적용했다
- v2에서는 원본 쿼리 신호의 50%를 항상 유지하는 Alpha Floor 메커니즘을 구현할 계획이다
Impact
- 5.2M개 원자 규모 그래프에서 14.3% 높은 nDCG@10을 달성했다
- 전통적 RAG가 0%를 기록한 다중홉 시나리오에서 15%의 Multi-hop Hit@20을 달성했다
- 100개 원자든 5.2M개든 검색 규모에 관계없이 약 10ms의 O(1) 지연 시간을 유지한다
Key Takeaway
동적 벡터 변형은 검색 범위를 크게 확장하지만, 과도한 변형으로 인한 쿼리 드리프트(67%의 실패 원인) 방지 메커니즘이 필수적이다
실천 포인트
대규모 그래프 기반 질의응답 시스템에서 다중홉 추론 정확도를 높이고 싶다면 쿼리 벡터를 각 탐색 단계마다 동적으로 변형하되, 원본 쿼리 신호의 일정 비율을 강제 보존하는 메커니즘을 함께 구현한다