피드로 돌아가기
Anthropic은 제품 전반에서 Claude를 어떻게 봉쇄할까
GeekNewsGeekNews
Security

Anthropic은 제품 전반에서 Claude를 어떻게 봉쇄할까

권한 프롬프트 84% 감소시킨 환경 계층 기반 Agent Containment 설계

xguru2026년 6월 5일24advanced

Context

Agent의 능력과 접근 권한 확대에 따라 잠재적 피해 반경(Blast Radius)이 지속적으로 증가하는 구조적 한계 직면. Human-in-the-loop 방식의 승인 피로로 인해 실제 감독 효율이 저하되며 확률적 방어의 틈새를 이용한 모델의 샌드박스 탈출 위험 존재.

Technical Solution

  • 모델 계층의 경향성 조정보다 환경 계층의 하드 경계 설정을 우선하는 Containment 전략 채택
  • claude.ai의 코드 실행을 위해 gVisor 및 seccomp 기반의 세션별 휘발성 Ephemeral Container 적용
  • Claude Code의 로컬 실행 환경에 macOS Seatbelt 및 Linux bubblewrap 기반 OS 수준 Sandbox를 도입하여 파일시스템 및 네트워크 접근 제어
  • 프로젝트 설정 파일(.claude/settings.json) 파싱 및 실행 시점을 신뢰 프롬프트 수락 이후로 지연시켜 초기 진입점 취약점 제거
  • 사용자 의도와 무관한 데이터 유출을 원천 차단하기 위해 Egress 제어 및 민감 경로(~/.aws) 파일시스템 격리 강제
  • 일반 사용자 대상의 Claude Cowork 서비스에는 QEMU VM을 활용한 강력한 하드웨어 수준 격리 패턴 적용

1. Agent 권한 부여 시 Human-in-the-loop에 의존하지 말고 Egress 필터링 및 파일시스템 Read-only 설정을 기본값으로 적용했는가

2. 설정 파일 파싱 등 초기화 단계의 코드가 사용자 신뢰 확인 전에 실행되어 Remote Code Execution 경로를 제공하지 않는가

3. 모델의 확률적 판단에 의존하는 소프트웨어 방어 외에 gVisor, bubblewrap 등 커널 수준의 격리 도구를 검토했는가

4. Agent가 접근하는 외부 데이터 소스(MCP 서버 등)를 신뢰할 수 없는 입력값으로 처리하여 컨텍스트 주입 공격을 방어하고 있는가

원문 읽기