피드로 돌아가기
Dev.toAI/ML
원문 읽기
LLM 결합으로 데이터 품질 검수 정밀도 극대화, Golden Suite 활용 사례
AI-Powered Deduplication: How LLMs Supercharge the Golden Suite
AI 요약
Context
통계적 패턴 기반의 데이터 프로파일링은 데이터의 실제 의미를 파악하지 못하는 한계 존재. 퍼지 매칭 기반의 중복 제거 과정에서 모호한 데이터 쌍을 구분하기 위한 인간 수준의 판단력 필요. 단순 규칙만으로는 처리 불가능한 노이즈 데이터와 경계선 사례의 식별 문제 발생.
Technical Solution
- GoldenCheck에 LLM 기반의 2단계 강화 패스를 도입하여 시맨틱 타입 분류 및 발견 항목의 심각도 재검토 수행
- 데이터 의미론적 이해를 통해 단순 텍스트로 분류된 컬럼 내 숫자 포함 오류를 실제 에러로 격상시키는 검증 로직 적용
- GoldenFlow의 결정론적 변환 이후 LLM 교정기를 배치하여 오타가 포함된 범주형 데이터의 정밀 보정 수행
- GoldenMatch의 llm_scorer를 통해 퍼지 매칭이 결정하지 못한 경계선 중복 쌍에 대해 LLM 기반의 최종 판정 수행
- API 호출 실패나 예산 초과 시 기존 비-LLM 결과물을 그대로 반환하는 Graceful Degradation 설계 적용
- 비용 최적화를 위해 발견 빈도가 높은 상위 50개 컬럼에 대해서만 LLM 스캔을 제한하는 예산 제어 전략 도입
Impact
- 52,288행 데이터셋 기준 표준 프로파일러가 놓친 23개의 신규 발견 항목 식별 및 6개의 치명적 에러 포착
- LLM 적용 시 처리 시간 8.3초에서 61.5초로 증가
- OpenAI gpt-4o-mini 활용 시 52,000행 기준 중복 제거 비용 약 $0.05 수준 달성
- GoldenFlow 표준 변환만으로 204,283개의 셀 보정 수행하여 LLM 비용 절감
Key Takeaway
모든 데이터를 LLM으로 처리하는 대신 결정론적 규칙으로 1차 필터링 후 모호한 경계선 사례만 LLM에 위임하는 하이브리드 파이프라인 설계가 효율적임.
실천 포인트
데이터 정제 시 규칙 기반 변환을 우선 적용하고, 판별 불가능한 소수의 Edge Case에 대해서만 LLM Scorer를 도입하여 비용과 정확도의 균형을 맞출 것