OCR 렌더링 기반 텍스트 정제 통한 Prompt Injection 12종 완전 무력화

How I Built an OCR-Based Defense Against Prompt Injection for Local LLM Search

Morfasco2026년 4월 12일3분advanced

AI 요약

Context

Local LLM 기반 웹 검색 도구에서 Unicode Injection 및 Markdown 이미지 태그를 통한 데이터 유출 공격 노출. 기존 모델 레벨 방어 체계가 Adaptive Attack에 대해 53.6%의 실패율을 보이며 한계를 드러낸 상황.

텍스트를 이미지로 렌더링 후 다시 OCR로 추출하는 Round-trip 구조를 통한 시각적 비표현 문자(Zero-width, Bidi override 등)의 물리적 제거
ImageMagick(300 DPI, 20pt monospace, TIFF)과 Tesseract LSTM 엔진을 결합한 Ground Truth 텍스트 추출 파이프라인 구축
31개의 컴파일된 정규표현식 패턴을 활용한 Instruction Override 및 Role Hijacking 시도 탐지 및 Redaction
URL 및 Email 주소의 강제 제거를 통한 외부 데이터 유출 경로(Exfiltration Channel) 원천 차단
정제된 텍스트에 HOSTILE/UNTRUSTED 메타데이터를 부여하는 Trust Wrap 적용으로 LLM에 출처 정보 제공
OCR 정제 단계를 최상단에 배치하여 이후 모든 필터링 레이어가 깨끗한 텍스트 기반으로 동작하도록 설계

실천 포인트

1. 비표현 문자 기반 공격 방지를 위한 텍스트 렌더링-OCR 파이프라인 검토

2. 정규표현식을 통한 알려진 공격 패턴의 다층 방어(Defense in Depth) 적용

3. 외부 유입 데이터에 대한 출처 태깅(Provenance Metadata) 도입

4. Semantic Injection과 같은 논리적 공격에 대비한 추가적인 검증 레이어 설계

태그