피드로 돌아가기
Building a fraud detection and data quality API for Latin America
Dev.toDev.to
Security

LATAM 특화 NLP 및 다층 검증 로직을 통한 사기 탐지 및 데이터 표준화 API 구축

Building a fraud detection and data quality API for Latin America

Mediavox2026년 6월 8일6intermediate

Context

미국 중심의 기존 API들이 스페인어권 라틴아메리카(LATAM) 특유의 주소 체계와 기업 명칭, 사기 패턴을 인식하지 못하는 한계 직면. 특히 콜롬비아 내 월 200만 건 이상의 피싱 SMS 발생 등 지역 특화된 보안 위협에 대응 가능한 전용 시스템 필요성 증대.

Technical Solution

  • 263개 이상의 LATAM 브랜드 라이브러리와 Position-aware 탐지 로직을 결합한 임퍼스네이션 패턴 분석
  • RDAP 기반 도메인 생성일 분석 및 최대 10-hop의 Redirect Chain Resolution을 통한 최종 목적지 추적
  • 6개국(CO, MX, PE, CL, EC, AR) 법인 접미사 분리 및 6만 개 이상의 사전 기반 Spanish NLP 표준화 엔진 구축
  • Spanish Fuzzy Matching 알고리즘을 적용한 글로벌 제재 대상자(Sanctions List) 스크리닝 최적화
  • NER(Named Entity Recognition) 기반의 OCR 파이프라인을 통한 비정형 문서의 정형 데이터 추출 구조 설계
  • 요청 데이터 기반의 Self-improving Dictionary 모델을 도입하여 데이터 정확도를 점진적으로 향상시키는 피드백 루프 구현

1. 지역 특화 데이터 처리 시 단순 번역이 아닌 현지 도메인 사전(Dictionary) 구축 여부 검토

2. 외부 URL 검증 시 리다이렉션 체인을 끝까지 추적하는 Resolve 로직 포함

3. 이름/주소 표준화 시 국가별 법적 접미사 및 행정 구역 코드를 분리하는 파싱 단계 설계

4. 데이터 품질 향상을 위해 사용자 요청-결과를 학습시키는 Self-improving 구조 고려

원문 읽기