피드로 돌아가기
Dev.toSecurity
원문 읽기
GPT-2 내부 활성화 프로브를 통한 Tool Poisoning 탐지율 98.5% 달성
My security scanner scored 0 out of 485. So I looked inside GPT-2's brain instead.
AI 요약
Context
AI Agent의 Tool description 내에 악성 지시문을 은닉하는 Tool Poisoning 공격 발생. 기존의 정규표현식, Keyword Matching, Sentence-BERT 기반 텍스트 스캐닝 방식은 정상 문구와 유사한 공격 패턴을 구분하지 못하는 근본적 한계 노출.
Technical Solution
- TransformerLens를 활용한 GPT-2 내부 Residual Stream Activation 추출
- 텍스트 표면의 단어가 아닌 모델 내부의 의미론적 처리 신호를 포착하는 Logistic Regression 기반 Probe 설계
- 중간 레이어(Layer 3)에서 신호 강도가 피크를 이루는 특성을 이용한 의도(Intent) 탐지 구조 채택
- 텍스트 길이에 따른 편향 제거를 통해 순수 활성화 값 기반의 판별 모델 검증
- 단일 모델 편향 제거를 위해 Claude, GPT, Gemini, Codex 등 4종의 모델로 생성된 합성 데이터셋 활용
실천 포인트
1. LLM 기반 도구 연동 시 텍스트 필터링 외에 모델 내부 활성화 신호 분석 검토
2. 단순 패턴 매칭이 아닌 Sparse Autoencoder(SAE)를 통한 특징 분해(Feature Decomposition) 적용 가능성 타진
3. 학습 데이터의 작성 스타일(Writing Style)에 따른 일반화 성능 저하 방지를 위한 데이터 다양성 확보