피드로 돌아가기
Dev.toAI/ML
원문 읽기
Power Decay 및 Similarity Filtering 도입으로 F1 Score 25% 개선
KNN-Based Risk Scoring: What Actually Works
AI 요약
Context
KNN 기반 Risk Scoring 시스템에서 단순 Nearest Neighbor Aggregation으로 인한 노이즈 발생 및 낮은 예측 정밀도 문제 직면. Seed Pool의 클래스 불균형과 Embedding 공간 내 낮은 분리도가 모델 성능의 근본적 병목 지점으로 작용함.
Technical Solution
- Seed Pool 내 Black-to-White 비율을 10:1 이하로 유지하여 Prior-driven Signal 왜곡 방지
- Inter-class Similarity가 Intra-class Similarity보다 낮은 Embedding 분리도 검증을 통한 모델 유효성 확보
- Similarity 0.7 미만으로 유사도가 낮은 이웃을 제거하여 무작위 매칭에 의한 노이즈 차단
- 단순 Majority Vote 대신 Power Decay(p=8) 함수를 적용하여 고유사도 이웃에 가중치를 부여하는 Scoring 로직 설계
- Isotonic Regression 기반의 Calibration 적용으로 극단값에 쏠린 Score를 안정적인 확률값으로 변환
실천 포인트
1. Seed Pool의 Black/White 비율이 10:1을 초과하는지 확인
2. Inter-class similarity < Intra-class similarity 여부 검증
3. Retrieval Signal의 Mean Difference가
0.10 이상인지 체크
4. Similarity Filter 임계값을
0.7로 설정하여 Baseline 구축
5. 정밀도 우선 시 필터 임계값을
0.75~
0.80으로 상향 조정