피드로 돌아가기
Dev.toAI/ML
원문 읽기
Hybrid Retrieval과 Graph Expansion을 통한 코드 실행 흐름 복원
Building KernelMind Part 2: Hybrid Retrieval, Reranking, and Actually Retrieving Useful Code
AI 요약
Context
단순 Embedding 기반 검색은 식별자나 설정값 같은 정밀한 렉시컬 정보 처리 시 성능 한계를 보임. 특히 코드 저장소 특성상 로직이 여러 파일에 분산되어 있어 단일 청크 기반으로는 전체 실행 흐름을 파악하기 어려운 구조적 제약이 존재함.
Technical Solution
- Embedding의 의미론적 검색과 BM25의 정밀한 토큰 일치 검색을 결합한 Hybrid Retrieval 체계 구축
- Reciprocal Rank Fusion(RRF) 알고리즘을 적용하여 서로 다른 검색 엔진의 결과물을 최적의 순위로 통합
- 검색된 청크를 단순 정답이 아닌 Entry Point로 취급하여 Graph Architecture 기반의 주변 실행 컨텍스트로 확장
- Cross Encoder Reranking 레이어를 도입하여 유사한 함수명으로 인한 노이즈를 제거하고 정밀도 확보
- '검색 -> 그래프 확장 -> 리랭킹 -> 오케스트레이션'으로 이어지는 파이프라인을 통해 코드 간 의존성 및 워크플로우 복원
실천 포인트
1. 식별자/함수명 기반 검색이 중요할 경우 Embedding과 BM25를 혼합한 Hybrid 검색 도입 검토
2. 분산된 로직 파악을 위해 검색 결과 기반의 Neighbor Node 확장 전략 설계
3. 다수의 후보군 중 정밀도를 높이기 위해 최종 단계에서 Cross Encoder를 통한 Reranking 적용