Power Decay 및 Similarity Filtering 도입으로 F1 Score 25% 개선

KNN-Based Risk Scoring: What Actually Works

Dany W2026년 5월 19일11분intermediate

AI 요약

Context

KNN 기반 Risk Scoring 시스템에서 단순 Nearest Neighbor Aggregation으로 인한 노이즈 발생 및 낮은 예측 정밀도 문제 직면. Seed Pool의 클래스 불균형과 Embedding 공간 내 낮은 분리도가 모델 성능의 근본적 병목 지점으로 작용함.

Technical Solution

Seed Pool 내 Black-to-White 비율을 10:1 이하로 유지하여 Prior-driven Signal 왜곡 방지
Inter-class Similarity가 Intra-class Similarity보다 낮은 Embedding 분리도 검증을 통한 모델 유효성 확보
Similarity 0.7 미만으로 유사도가 낮은 이웃을 제거하여 무작위 매칭에 의한 노이즈 차단
단순 Majority Vote 대신 Power Decay(p=8) 함수를 적용하여 고유사도 이웃에 가중치를 부여하는 Scoring 로직 설계
Isotonic Regression 기반의 Calibration 적용으로 극단값에 쏠린 Score를 안정적인 확률값으로 변환

실천 포인트

1. Seed Pool의 Black/White 비율이 10:1을 초과하는지 확인

2. Inter-class similarity < Intra-class similarity 여부 검증

3. Retrieval Signal의 Mean Difference가

0.10 이상인지 체크

4. Similarity Filter 임계값을

0.7로 설정하여 Baseline 구축

5. 정밀도 우선 시 필터 임계값을

0.75~

0.80으로 상향 조정

태그

#KNN #ANN #Risk Scoring #Embedding #Isotonic Regression

원문 읽기