피드로 돌아가기
The RegisterSecurity
원문 읽기
Apple Intelligence의 가드레일을 무너뜨린 Prompt Injection 공격 분석
Security researchers tricked Apple Intelligence into cursing at users. It could have been a lot worse
AI 요약
Context
Apple Intelligence의 온디바이스 LLM 기반 시스템 구조. 입력 및 출력 필터와 모델 내부 가드레일을 통한 보안 체계 구축. 하지만 특정 기법을 통한 필터 우회 및 공격자 제어 결과 생성 가능성 존재.
Technical Solution
- Machine Learning 최적화 알고리즘을 활용해 실행 트리거 문자열을 생성하는 Neural Exec 공격 기법 적용
- 수동 프롬프트 생성 방식에서 벗어나 최적화 알고리즘으로 모델 오작동을 유발하는 입력값 탐색 속도 개선
- Unicode Right-to-Left Override 기능을 활용해 영문 텍스트를 역순으로 인코딩하여 입력 필터 무력화
- LLM이 역순 텍스트를 정상적으로 렌더링하도록 유도하여 사후 필터링 및 가드레일 우회
- 온디바이스 모델의 상대적으로 작은 파라미터 규모를 공략하여 클라우드 기반 모델 대비 높은 공격 성공률 달성
- 생성된 권한을 통해 연락처 생성 등 기기 내 데이터 조작 가능성을 검증한 공격 벡터 설계
Impact
- 100개의 무작위 프롬프트 테스트 중 76%의 공격 성공률 기록
- 약 2억 대의 Apple Intelligence 지원 기기 및 100만 개의 관련 앱 대상 잠재적 위협 확인
Key Takeaway
온디바이스 AI 모델은 리소스 제약으로 인해 클라우드 모델보다 Prompt Injection에 더 취약한 구조적 특성을 가짐. 입력 필터링뿐만 아니라 데이터 렌더링 수준의 우회 기법을 고려한 다층 방어 설계가 필수적임.
실천 포인트
LLM 기반 서비스 설계 시 Unicode 특수 문자나 역순 텍스트를 활용한 필터 우회 가능성을 검토하고 입력값 정규화 단계를 강화할 것