피드로 돌아가기
Dev.toSecurity
원문 읽기
LLM 스크래퍼의 Indirect Prompt Injection 방어를 위한 아키텍처 분리 전략
Prompt injection in LinkedIn profiles
AI 요약
Context
LLM 기반의 LinkedIn 프로필 분석 시스템에서 사용자 제어 입력값이 시스템 프롬프트를 무시하고 임의의 명령을 수행하는 Indirect Prompt Injection 위협 발생. 데이터와 명령의 구분이 없는 Context Window의 특성으로 인해 단순 요약을 넘어 CRM 업데이트, 이메일 발송 등 downstream action을 통한 데이터 유출 및 권한 오남용 가능성 상존.
Technical Solution
- Extraction과 Analysis 단계의 완전 분리를 통한 파이프라인 설계
- 1차 모델을 통한 Raw Data의 Structured Field 추출 및 길이 제한 적용으로 공격 페이로드 무력화
- XML 태그 기반의 Structural Delimiters 도입으로 데이터와 지시어의 논리적 경계 설정
- Unicode Normalization 및 Control Character 제거를 통한 Homoglyph 기반 우회 공격 차단
- OCR 전처리 후 텍스트화 과정을 거친 Vision Input 처리로 멀티모달 모델의 이미지 내 지시어 수행 방지
- Output Schema Validation 적용을 통해 LLM 응답을 정해진 형식으로 제한하고 비정상 값 차단
실천 포인트
1. 스크래핑 데이터 전처리 단계에서 Unicode Normalization 및 길이 제한 적용 여부 확인
2. 데이터 추출 모델과 분석 모델을 분리하여 Analysis 모델이 Raw Text에 직접 접근하는 경로 차단
3. LLM 응답을 직접 API 호출에 사용하지 않고 Schema Validation을 거친 Structured Data만 전달
4. 이미지 입력 시 멀티모달 모델에 직접 전달 대신 OCR 텍스트 추출 후 검증 프로세스 도입