피드로 돌아가기
InfoQInfoQ
Infrastructure

Snapshot 기반 복구로 부팅 시간을 30초에서 2초로 단축한 AI Sandbox GA

Cloudflare Sandboxes Reach General Availability, Giving AI Agents Persistent Isolated Environments

Steef-Jan Wiggers2026년 4월 22일4advanced

Context

AI Agent가 실행하는 비신뢰 코드의 격리 및 상태 유지를 위한 고성능 환경 필요성 증대. 기존의 단순 Request-Response 쉘 시뮬레이션으로는 복잡한 개발 도구 및 실시간 상태 유지가 어려운 한계 존재.

Technical Solution

  • Zero-Trust 모델 기반의 Outbound Workers 도입을 통한 네트워크 레이어 수준의 Credential Injection 구현
  • WebSocket 기반 PTY 지원으로 실제 Pseudo-terminal 세션을 프록시하여 대화형 쉘 환경 제공
  • Linux inotify 기반 Filesystem Watching 설계를 통한 파일 변경 사항의 실시간 이벤트 감지
  • Snapshot 메커니즘을 활용한 디스크 상태 보존 및 Near-instant 복구 구조 설계
  • V8 Isolate 기반 Dynamic Workers와 Full Container 기반 Sandbox의 2-Tier 아키텍처를 통한 워크로드 최적화
  • 실제 사용한 CPU 사이클에 대해서만 과금하는 Active CPU Pricing 모델 적용

Impact

  • Repository Clone 및 npm install 포함 초기 부팅 시간 30초에서 Snapshot 복구 시 2초로 단축
  • vCPU-second당 $0.00002의 세밀한 과금 체계 구축
  • 최대 15,000개의 Concurrent Lite Instance 수용 가능

Key Takeaway

상태가 필요한 AI Agent 환경에서 Cold Start 문제를 해결하기 위해 전체 OS 상태를 캡처하는 Snapshotting 전략과 네트워크 보안을 위해 토큰을 워크로드에 노출하지 않는 Egress Proxy 설계의 중요성 확인.


- 비신뢰 코드 실행 환경 설계 시 Agent에게 직접 Secret을 부여하지 않고 Egress Proxy에서 주입하는 구조 검토 - 상태 유지 워크로드의 시작 지연 시간을 줄이기 위해 최적화된 Snapshot 기반 복구 전략 도입 고려 - 가벼운 실행(Isolate)과 무거운 실행(Container) 환경을 분리한 2-Tier 실행 모델 적용 가능성 분석

원문 읽기