T1027 난독화 공격을 통한 LLM 가드레일 무력화 및 전처리 Normalization 해결책

How a Morse Code Attack Bypassed Bankr's LLM Agent: T1027 Obfuscation in the Wild

PJ2026년 5월 8일19분advanced

AI 요약

Context

패턴 매칭 기반의 정적 필터링 시스템으로 99.2%의 일반 Jailbreak 시도를 차단했으나, Morse Code 등 인코딩된 페이로드에 의한 Semantic Bypass 발생. LLM의 내장된 디코딩 능력이 보안 경계를 무력화하며 다회차 대화를 통한 Context 기반 실행으로 이어지는 취약점 노출.

Technical Solution

LLM 도달 전 모든 입력값을 표준 텍스트로 변환하는 encoding_normalizer.py 전처리 레이어 도입
Base64, ROT13, Hexadecimal, Unicode Homoglyphs 등 6가지 주요 인코딩 패밀리에 대한 사전 디코딩 로직 구현
'Normalize First, Then Filter' 전략을 통해 필터가 모델과 동일한 관점에서 데이터를 해석하도록 설계
개별 메시지 분석의 한계를 극복하기 위해 대화 상태(Conversation State) 전반에 걸친 입력 정규화 적용
모델의 판단에 의존하지 않고 Tool Execution 레이어에서 최종 정책을 강제하는 Defense-in-Depth 구조 채택

실천 포인트

- 입력 필터링 전 Base64, Hex, Unicode 등 흔히 사용되는 인코딩 포맷의 디코딩 프로세스가 포함되었는지 확인 - 단일 메시지 단위 검증이 아닌, 이전 턴의 디코딩 결과가 현재 턴의 명령어로 작동하는 Multi-turn 공격 시나리오 검토 - LLM의 '도움이 되려는 본능'이 보안 로직을 오버라이드할 가능성을 고려하여, 실행 권한 검증을 모델 외부의 비즈니스 로직 층에서 강제

태그

#LLM Security #Prompt Injection #Input Normalization #T1027 #Obfuscation

원문 읽기