Local Anonymization과 4단계 Fallback 전략을 통한 PDF 개인정보 보호 교정 시스템 구현

Comment laisser GPT-5.5 corriger un CV sans jamais lui montrer un seul donnée personnelle

Athroniaeth2026년 5월 27일7분intermediate

AI 요약

Context

LLM을 활용한 CV 교정 시 사용자 개인정보 유출 위험 및 PDF 내 정확한 에러 위치 매핑의 기술적 난제 발생. 기존 Regex 기반 탐지 방식은 이름이나 기업명 같은 비정형 데이터의 문맥적 식별이 불가능한 한계 보유.

Technical Solution

Trained Detector 기반 Local Anonymization을 통한 PII(Personally Identifiable Information) 제거 및 UUID 기반 Placeholder 매핑 구조 설계
Instructor 라이브러리의 create_iterable을 활용하여 list[Mistake] 전체 대기 시간을 제거하고 Pydantic 객체 단위의 Real-time Streaming 구현
FastAPI SSE(Server-Sent Events) 연동을 통해 LLM 추론과 동시에 프론트엔드에 에러 위치를 점진적으로 렌더링하는 파이프라인 구축
LLM의 Markdown 토큰과 PyMuPDF의 Word Stream 간 불일치를 해결하기 위한 4단계 Fallback 매칭 전략(Strict Match $\rightarrow$ Normalization $\rightarrow$ Unique Error Text $\rightarrow$ Concatenated Substring Search) 적용
멀티 컬럼 PDF의 선형화 오류로 인한 context_before 환각 현상을 Unique Error Text 우선순위 조정을 통해 보완

실천 포인트

- PII 탐지 시 Regex 대신 전용 Named Entity Recognition(NER) 모델 검토 - Structured Output 스트리밍 필요 시 LangChain 대신 Instructor의 `create_iterable` 적용 - PDF 텍스트 추출 기반 LLM 작업 시 토큰 불일치 해결을 위한 다단계 Fallback 매칭 로직 설계 - 멀티 컬럼 문서 처리 시 LLM의 컨텍스트 윈도우 내 순서 왜곡 가능성을 고려한 검증 로직 추가

태그

#Server-Sent Events #NER #Anonymization #Structured-Output #PyMuPDF

원문 읽기