피드로 돌아가기
95% of PII Redaction Doesn't Need an LLM. The Other 5% Is Where Your Masker Leaks.
Dev.toDev.to
Security

비정형 데이터 5% 보호를 위한 Deterministic-LLM 하이브리드 Masking 설계

95% of PII Redaction Doesn't Need an LLM. The Other 5% Is Where Your Masker Leaks.

Rene Zander2026년 4월 21일3intermediate

Context

SAP와 같은 엔터프라이즈 환경의 PII Redaction 시 기존 Deterministic 도구는 정형 데이터에 최적화되어 비정형 텍스트 내 PII 유출을 방지하지 못하는 한계 존재. 무분별한 LLM 도입은 정형 데이터 처리 시 수천 배의 Compute 비용 상승과 Referential Integrity 훼손이라는 심각한 병목을 초래함.

Technical Solution

  • Classifier Pass 도입을 통한 데이터 성격별 분기 처리로 Compute 비용 최적화
  • Structured PII에 대해 Regex 및 Lookup Table 기반의 Deterministic Masking 적용
  • Free-text 및 Unclassified Z-columns에 한해 Fine-tuned LLM을 통한 정밀 Redaction 수행
  • HMAC 및 Scoped Salt 기반의 Pseudonym Table 공유로 정형/비정형 경로 간 데이터 일관성 유지
  • YAML 기반 Rule 정의를 통해 모델의 확률적 결과물이 아닌 결정론적 감사 추적성(Auditability) 확보
  • Schema-aware 접근법으로 95%의 정형 데이터를 처리하고 LLM을 롱테일 영역의 보완재로 활용하는 계층적 구조 설계

1. 데이터 컬럼을 structured_pii, free_text, safe 세 가지 범주로 분류하는 분류 체계 수립

2. 정형 데이터는 HMAC 기반의 결정론적 마스킹으로 Referential Integrity 확보

3. 비정형 텍스트 및 스키마 미정의 컬럼(Z-table)에 한해 제한적으로 LLM Redactor 적용

4. 마스킹 룰을 YAML 등 코드화하여 규제 대응을 위한 Audit Trail 구축

원문 읽기