피드로 돌아가기
Building coldstart: what broke, what held up
Dev.toDev.to
AI/ML

IDF 기반 토큰 스코어링과 다차원 도메인 설계를 통한 코드 검색 정밀도 최적화

Building coldstart: what broke, what held up

Akash Goenka2026년 4월 27일10intermediate

Context

단일 폴더 경로 기반의 도메인 할당 방식으로 인한 파일 식별력 상실 및 경로 중첩 문제 발생. 단순 Substring Matching 적용 시 'in'과 같은 일반 토큰으로 인한 검색 결과의 과도한 노이즈 및 Precision 저하 직면.

Technical Solution

  • 단일 도메인 구조에서 경로 세그먼트와 Exported Symbol을 모두 포함하는 Domains Array 구조로 전환하여 파일 식별성 확보
  • Import Path를 토큰 소스에서 제외하여 의존성 정보와 정체성(Identity) 정보를 분리하고 검색 노이즈 제거
  • Inverse Document Frequency(IDF) 알고리즘을 도입하여 일반 토큰의 가중치를 낮추고 희소 토큰의 가중치를 높인 스코어링 모델 설계
  • 변경 파일 수가 30개 이하일 때는 Patch 업데이트를 수행하고, 초과 시 Full Rebuild 후 Atomic Swap으로 인덱스를 교체하는 효율적 갱신 전략 채택
  • Semantic Search의 한계를 극복하기 위해 정적 분석 기반의 Symbol Structure 및 Dependency Trace 도구 구현

1. 검색 엔진 설계 시 단순 문자열 일치 대신 IDF 기반의 토큰 가중치 적용 검토

2. 파일 정체성 정의 시 경로뿐만 아니라 내부 Export Symbol을 토큰화하여 인덱싱

3. 대규모 인덱스 업데이트 시 변경 분량에 따른 Patch/Full Rebuild 임계값(Threshold) 설정 및 Atomic Swap 적용

4. Agent 대상 도구 개발 시 불필요한 Confidence Score 제거 및 결과 집합의 가용성 확보

원문 읽기