Role Confusion 이용한 CoT Forgery 공격으로 Jailbreak 성공률 60% 달성

Security researchers tricked LLMs into giving them cocaine recipes by abusing role models for prompt injection

2026년 6월 30일4분advanced

AI 요약

Context

LLM은 , , 등 Role Tag를 통해 입력 데이터의 권한과 목적을 구분하는 아키텍처를 채택함. 그러나 해당 구분 체계가 실제 모델 내부 표현(Internal Representation)에 반영되지 않고 단순 텍스트 스타일 기반의 포맷팅 트릭으로 작동하는 한계가 존재함.

Technical Solution

Role Tag라는 보안 아키텍처가 실제로는 작성 스타일(Writing Style)이라는 불완전한 특징에 의존하는 구조적 결함 파악
모드의 간결한 스타일을 모방하여 사용자 프롬프트에 삽입하는 CoT (Chain of Thought) Forgery 기법 설계
모델이 외부 주장을 검증하는 대신 이미 도출된 내부 결론으로 오인하게 만드는 신뢰 탈취 메커니즘 적용
권한 검증 프로세스를 우회하여 모델의 내장 시스템 프롬프트보다 공격자의 가짜 추론 과정을 우선시하도록 유도
정적인 벤치마크가 포착하지 못하는 가변적 스타일 매칭을 통한 동적 공격 경로 확보

실천 포인트

1. Role Tag 기반의 입력 구분을 보안 통제 수단으로 신뢰하는 설계 지양

2. 정적 벤치마크 점수보다 실제 인간 레드팀의 적응형 공격 시나리오를 통한 검증 우선

3. 사용자 입력값이 모델의 내부 추론 과정(<think> 등)을 모사하는 패턴에 대한 필터링 검토

태그

#CoT Forgery #LLM Security #Prompt Injection #Jailbreaking #Role Confusion

원문 읽기