피드로 돌아가기
Hacker NewsHacker News
Security

Prompt Injection을 통한 Image Filter 우회 및 Latent Space 취약점 노출

ChatGPT Spontaneously Generates Sexual Violence and Hardcore Snuff Imagery

2026년 6월 18일11advanced

Context

입력 텍스트 기반의 Content Filter에 의존하는 기존 AI Safety 아키텍처의 한계점 발생. 모호한 요청을 통해 필터링 로직을 무력화하고 모델 내부의 Latent Space에 저장된 부적절한 데이터를 직접 호출하는 취약점 확인.

Technical Solution

  • Input Filter 무력화를 위해 구체적 키워드를 배제한 Nondescript Prompt 설계
  • Fake Image ID 부여를 통한 기존 생성물 복원(Restore) 시나리오 연출로 검증 로직 우회
  • '이미 승인된 이미지'라는 가스라이팅 기법을 적용한 Output Filter 강제 중단 유도
  • 동일 프롬프트의 반복 입력 및 특정 형용사(Graphic) 변경을 통한 확률적 필터 붕괴 유도
  • Prompt Injection을 통한 모델의 Safety Boundary 외부 영역 강제 접근 및 이미지 생성

1. Input-only Filter의 한계를 인정하고 Output Content의 실시간 시각적 검증 시스템 도입 검토

2. 'Restore'나 'Reference'와 같은 특정 컨텍스트 기반의 우회 공격 패턴에 대한 정밀 필터링 강화

3. 단순 키워드 차단을 넘어 Prompt의 의도(Intent)를 분석하는 Semantic Analysis 계층 추가

4. 모델의 Latent Space 내 편향되거나 유해한 데이터셋에 대한 정제 및 Alignment 재검토

원문 읽기