SafeBrowse가 AI 에이전트와 브라우저 동작 경로 사이에 보안 미들웨어를 삽입하여 22개 위협 시나리오에서 원본 에이전트 21회 침해 대비 SDK 연동 시 0회 침해 성과를 달성했다

SafeBrowse: A Trust Layer for AI Browser Agents (Prevent Prompt Injection & Data Exfiltration)

Rob Kang2026년 3월 30일3분intermediate

AI 요약

Context

AI 브라우저 에이전트가 웹 탐색, 파일 다운로드, 툴 연동, 메모리 쓰기 등을 수행할 때 단순한 모델 성능 향상이나 프롬프트 지시만으로는 런타임 제어가 불가능하다. 프롬프트 인젝션, PDF 오염, OAuth 콜백 악용, 메모리 포이즈닝, 긴 컨텍스트 소셜 엔지니어링 등 다양한 공격 벡터가 존재한다.

Technical Solution

에이전트의 행동을 ALLOW, BLOCK, QUARANTINE_ARTIFACT, USER_CONFIRM 타입의 판정으로 평가한다
TypeScript 코어 런타임과 localhost 데몬으로 실행 환경 보호한다
Python 클라이언트(PyPI: safebrowse-client)로 쉽게 통합할 수 있다
Playwright 참조 어댑터와 정책 및 지식 베이스 도구를 포함한다
레지스트리 백드 컨넥터 준비, 정확한 리다이렉트 콜백 검증, 아티팩트-툴 페인트 전파 기능이 포함되어 있다
리플레이 및 포렌식 로깅으로 정책 기원 추적이 가능하다

Impact

SafeBrowse 라이브 위협 랩 테스트 결과 22개 비교 시나리오에서 원본 에이전트 21회 침해, SDK 연동 에이전트 0회 침해가 발생했다. 세부 위협 중 Visible direct override, Hidden instruction layer, Poisoned PDF handoff, Schema-poisoned trusted connector, Appendix-to-connector chain 등이 모두 SDK로 차단 또는 격리되었다.

Key Takeaway

더 나은 모델은 에이전트가 잘못된 행동을 하고 싶지 않게 만들고, SafeBrowse는 에이전트가 여전히 잘못된 행동을 하고 싶어도 허용되는 행동을 제한한다. 런타임 보안은 모델 품질 문제가 아닌 제어 경계 문제이다.

실천 포인트

AI 에이전트 시스템에서 에이전트-브라우저 동작 경로 사이에 ALLOW/BLOCK 판정 기반 보안 미들웨어를 배치하면 런타임에 실행 전 보안 검증을 적용할 수 있다

태그

#AI Agent #Runtime Enforcement #Prompt Injection Prevention #OAuth Security #SafeBrowse

원문 읽기