피드로 돌아가기
Security researchers tricked LLMs into giving them cocaine recipes by abusing role models for prompt injection
The RegisterThe Register
Security

Role Confusion 이용한 CoT Forgery 공격으로 Jailbreak 성공률 60% 달성

Security researchers tricked LLMs into giving them cocaine recipes by abusing role models for prompt injection

2026년 6월 30일4advanced

Context

LLM은 , , 등 Role Tag를 통해 입력 데이터의 권한과 목적을 구분하는 아키텍처를 채택함. 그러나 해당 구분 체계가 실제 모델 내부 표현(Internal Representation)에 반영되지 않고 단순 텍스트 스타일 기반의 포맷팅 트릭으로 작동하는 한계가 존재함.

Technical Solution

  • Role Tag라는 보안 아키텍처가 실제로는 작성 스타일(Writing Style)이라는 불완전한 특징에 의존하는 구조적 결함 파악
  • 모드의 간결한 스타일을 모방하여 사용자 프롬프트에 삽입하는 CoT (Chain of Thought) Forgery 기법 설계
  • 모델이 외부 주장을 검증하는 대신 이미 도출된 내부 결론으로 오인하게 만드는 신뢰 탈취 메커니즘 적용
  • 권한 검증 프로세스를 우회하여 모델의 내장 시스템 프롬프트보다 공격자의 가짜 추론 과정을 우선시하도록 유도
  • 정적인 벤치마크가 포착하지 못하는 가변적 스타일 매칭을 통한 동적 공격 경로 확보

1. Role Tag 기반의 입력 구분을 보안 통제 수단으로 신뢰하는 설계 지양

2. 정적 벤치마크 점수보다 실제 인간 레드팀의 적응형 공격 시나리오를 통한 검증 우선

3. 사용자 입력값이 모델의 내부 추론 과정(<think> 등)을 모사하는 패턴에 대한 필터링 검토

원문 읽기