피드로 돌아가기
Deduplicating 401,000 Equipment Auction Records with LLM Calibration
Dev.toDev.to
AI/ML

LLM 캘리브레이션으로 40만 건의 중복 데이터 정밀 제거

Deduplicating 401,000 Equipment Auction Records with LLM Calibration

benzsevern2026년 4월 4일8intermediate

Context

장비 경매 데이터의 비정형 모델명으로 인한 중복 식별의 어려움. 단순 자동 설정 시 컬럼 오분류로 핵심 식별 필드가 누락되는 현상 발생. 대규모 블록 생성 시 연산 비용 폭증으로 인한 처리 한계 직면.

Technical Solution

  • ID 패턴 우선 검증 및 유틸리티 기반 필드 랭킹 도입으로 fiModelDesc 등 핵심 필드의 자동 분류 정확도 개선
  • Multi-pass Blocking 전략을 통해 모델명, 주, 제품 그룹별로 단계적 후보군을 추출하는 계층적 필터링 구조 설계
  • Jaro-Winkler, Token Sort, Soundex를 결합한 앙상블 스코어러를 적용하여 텍스트 변이형에 대응하는 가중치 기반 매칭 구현
  • Oversized Block 발생 시 Vertex AI 임베딩과 FAISS를 활용해 고차원 벡터 공간에서 유사도를 측정하는 ANN Hybrid Blocking 방식 도입
  • 소량의 샘플 쌍(200개)으로 최적의 임계값을 학습하는 LLM Calibration 프로세스를 통해 정밀도 최적화

Impact

  • 총 401,125건의 레코드 중 384,650건의 매칭 및 27,937개의 중복 클러스터 식별
  • ANN Hybrid Blocking 도입으로 15개 거대 블록 내 949개의 추가 중복 레코드 복구
  • LLM Calibration 적용 후 Confidence 0.4 이상 비율 77.1%에서 87.7%로 상승
  • LLM 최적화 과정의 전체 소요 비용 $0.01 달성

Key Takeaway

데이터 분포가 불균일한 대규모 중복 제거 시, 단순 문자열 매칭보다 ANN 기반의 하이브리드 블로킹과 LLM을 통한 동적 임계값 설정이 정밀도 향상에 결정적임.


대량의 중복 제거 작업 시 모든 쌍을 비교하는 대신, ANN fallback 구조를 설계하여 연산 비용과 재현율을 동시에 확보할 것

원문 읽기