피드로 돌아가기
Dev.toDatabase
원문 읽기
4,200개 중복 건물명을 하이브리드 파이프라인으로 1,387개로 단일화
Bridging 533K Dubai Land Department transactions to 1,387 buildings — developer naming is the real problem
AI 요약
Context
Dubai Land Department의 533K개 거래 데이터 내 건물명 표기 불일치로 인한 데이터 분석 왜곡 발생. 단순 문자열 정규화나 Levenshtein 거리 측정만으로는 번역 오류 및 건물 리브랜딩으로 인한 오탐지 해결에 한계 노출.
Technical Solution
- Geo-bucketing을 통한 50m 반경 내 좌표 기반의 1차 후보군 필터링으로 연산 범위 축소
- Rapidfuzz의 token_set_ratio를 이용한 세포 내 이름 유사도 90점 이상 클러스터링
- 유사도 75~90점 구간에 대해 all-MiniLM-L6-v2 임베딩 모델을 적용한 0.85 임계값 기반의 최종 판별
- M-code라는 절대 식별자를 앵커로 설정하여 모든 유사도 로직보다 우선하는 최상위 오버라이드 적용
- 위성 이미지 및 Street View 기반의 수동 검토 큐를 배치하여 140여 개의 모호한 클러스터 최종 확정
- 원본 이름을 보존하는 Alias 테이블 구조 설계를 통한 향후 데이터 드리프트 대응 및 감사 가능성 확보
실천 포인트
- 데이터 중복 제거 시 도메인 특성에 맞는 물리적 제약 조건(좌표, 시간 등)을 1차 필터로 설정했는가 - 알고리즘의 False Positive를 방지하기 위한 하이브리드 임계값 전략을 수립했는가 - 추후 데이터 변경에 대비해 원본 값(Raw data)을 보존하는 감사 추적 구조를 설계했는가