GPT-2 내부 활성화 프로브를 통한 Tool Poisoning 탐지율 98.5% 달성

My security scanner scored 0 out of 485. So I looked inside GPT-2's brain instead.

ithiria8942026년 5월 3일4분advanced

AI 요약

Context

AI Agent의 Tool description 내에 악성 지시문을 은닉하는 Tool Poisoning 공격 발생. 기존의 정규표현식, Keyword Matching, Sentence-BERT 기반 텍스트 스캐닝 방식은 정상 문구와 유사한 공격 패턴을 구분하지 못하는 근본적 한계 노출.

Technical Solution

TransformerLens를 활용한 GPT-2 내부 Residual Stream Activation 추출
텍스트 표면의 단어가 아닌 모델 내부의 의미론적 처리 신호를 포착하는 Logistic Regression 기반 Probe 설계
중간 레이어(Layer 3)에서 신호 강도가 피크를 이루는 특성을 이용한 의도(Intent) 탐지 구조 채택
텍스트 길이에 따른 편향 제거를 통해 순수 활성화 값 기반의 판별 모델 검증
단일 모델 편향 제거를 위해 Claude, GPT, Gemini, Codex 등 4종의 모델로 생성된 합성 데이터셋 활용

실천 포인트

1. LLM 기반 도구 연동 시 텍스트 필터링 외에 모델 내부 활성화 신호 분석 검토

2. 단순 패턴 매칭이 아닌 Sparse Autoencoder(SAE)를 통한 특징 분해(Feature Decomposition) 적용 가능성 타진

3. 학습 데이터의 작성 스타일(Writing Style)에 따른 일반화 성능 저하 방지를 위한 데이터 다양성 확보

태그

#Activation Probe #Intent Detection #Sparse Autoencoder #Tool Poisoning #Residual Stream

원문 읽기