피드로 돌아가기
Dev.toSecurity
원문 읽기
OCR 렌더링 기반 텍스트 정제 통한 Prompt Injection 12종 완전 무력화
How I Built an OCR-Based Defense Against Prompt Injection for Local LLM Search
AI 요약
Context
Local LLM 기반 웹 검색 도구에서 Unicode Injection 및 Markdown 이미지 태그를 통한 데이터 유출 공격 노출. 기존 모델 레벨 방어 체계가 Adaptive Attack에 대해 53.6%의 실패율을 보이며 한계를 드러낸 상황.
Technical Solution
- 텍스트를 이미지로 렌더링 후 다시 OCR로 추출하는 Round-trip 구조를 통한 시각적 비표현 문자(Zero-width, Bidi override 등)의 물리적 제거
- ImageMagick(300 DPI, 20pt monospace, TIFF)과 Tesseract LSTM 엔진을 결합한 Ground Truth 텍스트 추출 파이프라인 구축
- 31개의 컴파일된 정규표현식 패턴을 활용한 Instruction Override 및 Role Hijacking 시도 탐지 및 Redaction
- URL 및 Email 주소의 강제 제거를 통한 외부 데이터 유출 경로(Exfiltration Channel) 원천 차단
- 정제된 텍스트에 HOSTILE/UNTRUSTED 메타데이터를 부여하는 Trust Wrap 적용으로 LLM에 출처 정보 제공
- OCR 정제 단계를 최상단에 배치하여 이후 모든 필터링 레이어가 깨끗한 텍스트 기반으로 동작하도록 설계
실천 포인트
1. 비표현 문자 기반 공격 방지를 위한 텍스트 렌더링-OCR 파이프라인 검토
2. 정규표현식을 통한 알려진 공격 패턴의 다층 방어(Defense in Depth) 적용
3. 외부 유입 데이터에 대한 출처 태깅(Provenance Metadata) 도입
4. Semantic Injection과 같은 논리적 공격에 대비한 추가적인 검증 레이어 설계