LLM 캘리브레이션으로 40만 건의 중복 데이터 정밀 제거

Deduplicating 401,000 Equipment Auction Records with LLM Calibration

benzsevern2026년 4월 4일8분intermediate

AI 요약

Context

장비 경매 데이터의 비정형 모델명으로 인한 중복 식별의 어려움. 단순 자동 설정 시 컬럼 오분류로 핵심 식별 필드가 누락되는 현상 발생. 대규모 블록 생성 시 연산 비용 폭증으로 인한 처리 한계 직면.

ID 패턴 우선 검증 및 유틸리티 기반 필드 랭킹 도입으로 fiModelDesc 등 핵심 필드의 자동 분류 정확도 개선
Multi-pass Blocking 전략을 통해 모델명, 주, 제품 그룹별로 단계적 후보군을 추출하는 계층적 필터링 구조 설계
Jaro-Winkler, Token Sort, Soundex를 결합한 앙상블 스코어러를 적용하여 텍스트 변이형에 대응하는 가중치 기반 매칭 구현
Oversized Block 발생 시 Vertex AI 임베딩과 FAISS를 활용해 고차원 벡터 공간에서 유사도를 측정하는 ANN Hybrid Blocking 방식 도입
소량의 샘플 쌍(200개)으로 최적의 임계값을 학습하는 LLM Calibration 프로세스를 통해 정밀도 최적화

데이터 분포가 불균일한 대규모 중복 제거 시, 단순 문자열 매칭보다 ANN 기반의 하이브리드 블로킹과 LLM을 통한 동적 임계값 설정이 정밀도 향상에 결정적임.

실천 포인트

대량의 중복 제거 작업 시 모든 쌍을 비교하는 대신, ANN fallback 구조를 설계하여 연산 비용과 재현율을 동시에 확보할 것

태그