멀티레이어 필터링 및 LLM Cascade를 통한 제재 심사 F1 100% 달성

How we built a sanctions screening API that outperformed the Federal Reserve's benchmark

Verifex2026년 4월 11일1분advanced

AI 요약

Context

단순 Fuzzy Matching 기반의 기존 도구들이 유발하는 90-95%의 False Positive 문제 분석. Jaro-Winkler 임계치 의존 방식에 따른 연간 1,300억 달러 규모의 분석 비용 낭비 발생.

단일 알고리즘의 임계치 조정보다 정교한 전처리, 다층적 필터링(Penalty Layer), 그리고 고비용 LLM을 전략적 구간에만 배치하는 Cascade 구조의 결합이 정확도 극대화의 핵심임.

실천 포인트

1. 단순 문자열 유사도 측정 시 비즈니스 도메인 특화 Penalty Layer 설계 여부 검토

2. 전체 데이터가 아닌 신뢰도 모호 구간(Grey Zone)에만 LLM을 배치하는 Cascade 아키텍처 적용

3. Phonetic Blocking 및 Semantic Search를 병행하여 검색 범위와 정확도의 Trade-off 최적화

태그