피드로 돌아가기
Building Custom Recognizers
Dev.toDev.to
Security

Custom Recognizer 설계를 통한 비즈니스 특화 PII 탐지 정밀도 최적화

Building Custom Recognizers

Brian Spann2026년 6월 8일9intermediate

Context

기본 제공 PII 탐지 모델이 조직 내 특화된 데이터 포맷(사내 ID, 프로젝트 코드명 등)을 인식하지 못하는 한계 발생. 정규 표현식만으로는 다양한 데이터 패턴으로 인한 False Positive 발생 가능성이 높아 정밀한 탐지 메커니즘 필요.

Technical Solution

  • Deny-List 기반의 Exact Match 구조를 통한 고정된 기밀 키워드의 즉각적인 탐지와 Score 1.0 부여
  • Regular Expression 패턴 설계를 통한 EMP-XXXXX와 같은 규칙적 식별자의 체계적 포착
  • Context Enhancement 로직을 도입하여 주변 키워드(예: 'patient id') 존재 시 저득점 패턴의 Confidence Score를 동적으로 상승시키는 구조 설계
  • Score Threshold 설정을 통한 탐지 결과의 필터링 및 False Positive 제어
  • Test Case 기반의 반복적 검증을 통한 Regex 패턴과 Context Word의 최적화 과정 수행

- 단순 키워드 매칭은 Deny-List로 처리하여 오버헤드 최소화 - 범용적인 숫자/문자 패턴 사용 시 반드시 Context Word를 정의하여 Precision 확보 - 도메인 특화 PII의 경우 Base Score를 낮게 설정하고 Context에 의한 Boost 구조를 채택 - False Positive와 False Negative를 정량적으로 측정할 수 있는 Test Suite 구축

원문 읽기