피드로 돌아가기
Comment laisser GPT-5.5 corriger un CV sans jamais lui montrer un seul donnée personnelle
Dev.toDev.to
AI/ML

Local Anonymization과 4단계 Fallback 전략을 통한 PDF 개인정보 보호 교정 시스템 구현

Comment laisser GPT-5.5 corriger un CV sans jamais lui montrer un seul donnée personnelle

Athroniaeth2026년 5월 27일7intermediate

Context

LLM을 활용한 CV 교정 시 사용자 개인정보 유출 위험 및 PDF 내 정확한 에러 위치 매핑의 기술적 난제 발생. 기존 Regex 기반 탐지 방식은 이름이나 기업명 같은 비정형 데이터의 문맥적 식별이 불가능한 한계 보유.

Technical Solution

  • Trained Detector 기반 Local Anonymization을 통한 PII(Personally Identifiable Information) 제거 및 UUID 기반 Placeholder 매핑 구조 설계
  • Instructor 라이브러리의 create_iterable을 활용하여 list[Mistake] 전체 대기 시간을 제거하고 Pydantic 객체 단위의 Real-time Streaming 구현
  • FastAPI SSE(Server-Sent Events) 연동을 통해 LLM 추론과 동시에 프론트엔드에 에러 위치를 점진적으로 렌더링하는 파이프라인 구축
  • LLM의 Markdown 토큰과 PyMuPDF의 Word Stream 간 불일치를 해결하기 위한 4단계 Fallback 매칭 전략(Strict Match $\rightarrow$ Normalization $\rightarrow$ Unique Error Text $\rightarrow$ Concatenated Substring Search) 적용
  • 멀티 컬럼 PDF의 선형화 오류로 인한 context_before 환각 현상을 Unique Error Text 우선순위 조정을 통해 보완

- PII 탐지 시 Regex 대신 전용 Named Entity Recognition(NER) 모델 검토 - Structured Output 스트리밍 필요 시 LangChain 대신 Instructor의 `create_iterable` 적용 - PDF 텍스트 추출 기반 LLM 작업 시 토큰 불일치 해결을 위한 다단계 Fallback 매칭 로직 설계 - 멀티 컬럼 문서 처리 시 LLM의 컨텍스트 윈도우 내 순서 왜곡 가능성을 고려한 검증 로직 추가

원문 읽기