피드로 돌아가기
Building KernelMind Part 2: Hybrid Retrieval, Reranking, and Actually Retrieving Useful Code
Dev.toDev.to
AI/ML

Hybrid Retrieval과 Graph Expansion을 통한 코드 실행 흐름 복원

Building KernelMind Part 2: Hybrid Retrieval, Reranking, and Actually Retrieving Useful Code

Ishaan Mavinkurve2026년 5월 18일7advanced

Context

단순 Embedding 기반 검색은 식별자나 설정값 같은 정밀한 렉시컬 정보 처리 시 성능 한계를 보임. 특히 코드 저장소 특성상 로직이 여러 파일에 분산되어 있어 단일 청크 기반으로는 전체 실행 흐름을 파악하기 어려운 구조적 제약이 존재함.

Technical Solution

  • Embedding의 의미론적 검색과 BM25의 정밀한 토큰 일치 검색을 결합한 Hybrid Retrieval 체계 구축
  • Reciprocal Rank Fusion(RRF) 알고리즘을 적용하여 서로 다른 검색 엔진의 결과물을 최적의 순위로 통합
  • 검색된 청크를 단순 정답이 아닌 Entry Point로 취급하여 Graph Architecture 기반의 주변 실행 컨텍스트로 확장
  • Cross Encoder Reranking 레이어를 도입하여 유사한 함수명으로 인한 노이즈를 제거하고 정밀도 확보
  • '검색 -> 그래프 확장 -> 리랭킹 -> 오케스트레이션'으로 이어지는 파이프라인을 통해 코드 간 의존성 및 워크플로우 복원

1. 식별자/함수명 기반 검색이 중요할 경우 Embedding과 BM25를 혼합한 Hybrid 검색 도입 검토

2. 분산된 로직 파악을 위해 검색 결과 기반의 Neighbor Node 확장 전략 설계

3. 다수의 후보군 중 정밀도를 높이기 위해 최종 단계에서 Cross Encoder를 통한 Reranking 적용

원문 읽기