피드로 돌아가기
The Science Behind Scam Detection: How Tools Like ScamAlerts Work
Dev.toDev.to
Security

340ms 만에 스캠 판별, 5단계 계층형 신호 분석 아키텍처

The Science Behind Scam Detection: How Tools Like ScamAlerts Work

James Smith2026년 4월 6일9advanced

Context

실시간 스캠 탐지는 빠른 응답 속도와 높은 정확도를 동시에 요구하는 상충 관계의 문제. 공격자의 지속적인 우회 전략으로 인해 정적인 블랙리스트 방식은 한계 노출. 오탐지(False Positive) 발생 시 사용자 신뢰도가 급격히 하락하는 고위험 구조.

Technical Solution

  • 계산 비용과 정확도를 기준으로 설계한 5단계 계층형 Signal Stack 아키텍처 도입
  • 1단계에서 URL 문자열의 엔트로피 및 특수문자 밀도를 분석하는 Zero I/O 방식의 Lexical Analysis 수행
  • 2~3단계에서 DNS, WHOIS 정보 및 SSL 인증서 발행 기관의 리스크 점수를 매칭하는 평판 분석 적용
  • 4단계에서 Headless 브라우저를 통한 DOM 구조 핑거프린팅 및 JS 리다이렉션 패턴 추출
  • 5단계에서 ResNet-50 기반의 CNN 모델로 실제 로그인 화면의 시각적 유사도를 판별하는 Perceptual Hash 분석 수행
  • 8개의 독립적인 신호 분류기 결과를 가중치 앙상블 모델(Weighted Ensemble Model)로 통합하여 최종 판정

Impact

  • 전체 판정 Latency Budget 500ms 미만 유지
  • 계층 1~3단계에서 전체 URL의 78%를 평균 40ms 미만으로 처리
  • 오탐지율(False Positive) 0.3 미만 유지
  • 4.2 million 개의 확인된 스캠 URL 데이터를 학습에 활용
  • 특정 사례에서 340ms 만에 고위험 스캠 판별 성공

Key Takeaway

모든 데이터에 고비용 모델을 적용하는 대신 저비용 필터를 전면에 배치하여 처리 효율을 극대화하는 계층적 필터링 설계의 중요성.


실시간 판별 시스템 설계 시 연산 비용이 낮은 Lexical 분석부터 고비용의 ML 모델 순으로 파이프라인을 구성하여 처리량(Throughput)을 최적화할 것

원문 읽기