연구자들 “Fable 5 논란은 탈옥이 아니라 ‘fix this code’에서 시작됐다”

단순 'fix this code' 프롬프트로 무력화된 LLM 보안 가드레일과 수출 통제 사례

neo2026년 6월 17일15분intermediate

AI 요약

Context

Anthropic의 Fable 5 및 Mythos 5 모델에 적용된 보안 가드레일이 특정 키워드 기반 분류기(Classifier) 방식으로 설계됨. 취약점 분석 요청인 'review the code for security issues'는 차단하나, 수정 요청인 'fix this code'는 허용하는 논리적 허점이 존재함.

Technical Solution

키워드 중심의 입력/출력 필터링 기반 거부 메커니즘 채택
'보안 검토'와 '코드 수정'을 서로 다른 도메인으로 처리하는 분류 로직 설계
단순 프롬프트 전환을 통해 보안 필터를 우회하여 CVE 포함 코드의 수정안 및 테스트 스크립트 생성
입력 코드와 모델이 제시한 수정 코드의 Diff 분석을 통한 역방향 취약점 식별 가능 구조
LLM의 추론 능력을 이용해 위험 작업을 비위험 작업(코드 수정)으로 치환하는 Reduction 기법의 실효성 확인

실천 포인트

- 키워드 기반 필터링이 아닌 시맨틱 분석 기반의 가드레일 설계 검토 - 입력값과 출력값의 차이(Diff)를 통한 정보 유출 가능성 분석 - AI 기반 보안 도구 도입 시 '공격'과 '방어'의 기능적 중첩 가능성 고려

태그

#CVE #Guardrail #Prompt Injection #LLM Jailbreak #Classifier

원문 읽기