피드로 돌아가기
Dev.toAI/ML
원문 읽기
고차원 데이터에서 DBSCAN의 기하학적 한계를 Isolation Forest로 해결
Your Outlier Detection is Lying to You
AI 요약
Context
16차원의 기상 데이터셋에서 DBSCAN 기반 Outlier Detection 수행 시 Epsilon 값의 미세한 변화가 이상치 탐지율에 극단적인 영향을 주는 현상 발생. Curse of Dimensionality로 인한 Euclidean Distance의 변별력 상실이 핵심 병목 지점으로 분석됨.
Technical Solution
- Distance 기반의 밀도 측정 방식을 배제한 Isolation Forest 아키텍처 채택
- Random Decision Tree 앙상블을 통한 데이터 포인트의 고립 속도 측정 로직 적용
- 이상치의 희소성과 차별성을 이용해 루트 노드 근처에서 빠르게 격리되는 특성 활용
- 단일 피처 기준의 분할 방식을 통해 고차원 공간의 기하학적 복잡도 문제 해결
- 해석 불가능한 Epsilon 반경 대신 도메인 지식 기반의 Contamination Rate 파라미터 도입
- 데이터 분포의 Joint Distribution 학습을 통한 통계적 이상치 정의 및 탐색
실천 포인트
1. 피처 수가 증가함에 따라 Euclidean Distance 기반 알고리즘의 성능 저하 여부를 검토하십시오.
2. 파라미터 튜닝 시 수치적 결과만 보지 말고, 해당 파라미터가 도메인 관점에서 해석 가능한지 확인하십시오.
3. Ground Truth가 없는 이상치 탐지 단계에서는 도메인 전문가와 합의 가능한 Contamination Rate를 설정하십시오.