Deterministic Tokenization으로 PII 보호하며 LLM 출력 품질 96% 유지

We ran 109 tests to measure how PII protection methods affect LLM output quality. Here's what we learned and what we built.

NoPII2026년 4월 10일9분intermediate

AI 요약

Context

LLM 도입 시 PII 노출 방지를 위해 Placeholder Masking을 주로 사용함. 그러나 범용 레이블 대체 방식은 엔티티 간 관계 정보를 소실시켜 복잡한 프롬프트에서 추론 성능을 급격히 저하시키는 한계가 존재함.

Technical Solution

Deterministic Tokenization 도입을 통한 개별 엔티티별 고유 불투명 토큰 할당
동일 엔티티에 동일 토큰을 매핑하여 모델 내 Entity Relationship 보존
LLM API 전단계에서 Tokenize하고 응답 단계에서 Detokenize하는 Reverse Proxy 구조 설계
PII 레이블 노출로 인한 Safety Refusal 방지를 위해 레이블과 값의 결합 구조 최적화
규제 준수를 위해 Fail-Open을 배제한 엄격한 PII 차단 정책 적용
다양한 LLM Provider를 통합 지원하는 단일 Proxy Endpoint 인터페이스 제공

실천 포인트

- 복수 엔티티가 포함된 컨텍스트 분석 시 [PERSON] 식의 단순 마스킹 지양 - 엔티티별 Unique ID를 부여하는 Deterministic Tokenization 검토 - 비식별화 처리 후 모델의 Safety Refusal 발생 여부 정밀 모니터링 - PII 처리 로직을 애플리케이션 내부가 아닌 Reverse Proxy 계층에서 분리하여 관리

태그

#Data Anonymization #LLM Ops #Deterministic Tokenization #Reverse Proxy #PII Protection

원문 읽기