피드로 돌아가기
Dev.toAI/ML
원문 읽기
IDF 기반 토큰 스코어링과 다차원 도메인 설계를 통한 코드 검색 정밀도 최적화
Building coldstart: what broke, what held up
AI 요약
Context
단일 폴더 경로 기반의 도메인 할당 방식으로 인한 파일 식별력 상실 및 경로 중첩 문제 발생. 단순 Substring Matching 적용 시 'in'과 같은 일반 토큰으로 인한 검색 결과의 과도한 노이즈 및 Precision 저하 직면.
Technical Solution
- 단일 도메인 구조에서 경로 세그먼트와 Exported Symbol을 모두 포함하는 Domains Array 구조로 전환하여 파일 식별성 확보
- Import Path를 토큰 소스에서 제외하여 의존성 정보와 정체성(Identity) 정보를 분리하고 검색 노이즈 제거
- Inverse Document Frequency(IDF) 알고리즘을 도입하여 일반 토큰의 가중치를 낮추고 희소 토큰의 가중치를 높인 스코어링 모델 설계
- 변경 파일 수가 30개 이하일 때는 Patch 업데이트를 수행하고, 초과 시 Full Rebuild 후 Atomic Swap으로 인덱스를 교체하는 효율적 갱신 전략 채택
- Semantic Search의 한계를 극복하기 위해 정적 분석 기반의 Symbol Structure 및 Dependency Trace 도구 구현
실천 포인트
1. 검색 엔진 설계 시 단순 문자열 일치 대신 IDF 기반의 토큰 가중치 적용 검토
2. 파일 정체성 정의 시 경로뿐만 아니라 내부 Export Symbol을 토큰화하여 인덱싱
3. 대규모 인덱스 업데이트 시 변경 분량에 따른 Patch/Full Rebuild 임계값(Threshold) 설정 및 Atomic Swap 적용
4. Agent 대상 도구 개발 시 불필요한 Confidence Score 제거 및 결과 집합의 가용성 확보