피드로 돌아가기
Serverless Inference, Cost Optimization, CI/CD Pipelines, and Multi-Region Architecture for FSx for ONTAP S3 Access Points — Phase 5
Dev.toDev.to
Infrastructure

비용 70% 절감 및 RPO Zero를 달성한 SageMaker Serverless 및 Multi-Region 아키텍처 설계

Serverless Inference, Cost Optimization, CI/CD Pipelines, and Multi-Region Architecture for FSx for ONTAP S3 Access Points — Phase 5

Yoshiki Fujiwara(藤原 善基)@AWS Community Builder2026년 5월 8일15advanced

Context

sporadic workload 발생 시 상시 가동 인스턴스로 인한 비용 낭비와 단일 리전 구성에 따른 시스템 전체 장애 위험 존재. 기존의 Real-time Endpoint 중심 구조에서 발생하는 고정 비용 및 수동 배포의 확장성 한계를 해결해야 하는 상황.

Technical Solution

  • Batch, Real-time, Serverless 3가지 경로를 선택하는 Deterministic Routing 로직을 통한 트래픽 패턴별 최적 인프라 할당
  • Serverless Inference의 Cold Start(6~45s) 대응을 위해 60s 타임아웃 설정 및 Step Functions를 활용한 Batch Transform 자동 Fallback 구조 설계
  • Application Auto Scaling 기반의 Scheduled Scaling 및 60분 유휴 상태 감지 시 Auto-Stop Lambda를 통한 비용 최적화 자동화
  • DynamoDB Global Tables를 활용한 Task Token Store 복제 및 CrossRegionClient 기반의 리전 간 Failover 체계 구축
  • OIDC 인증 기반 GitHub Actions와 4단계 Gating(cfn-lint, pytest, cfn-guard, Bandit)을 통한 CI/CD 파이프라인 정형화
  • RPO near-zero를 목표로 하는 Tier 1부터 Tier 3까지의 DR 등급 정의 및 이에 따른 Failover Runbook 수립

- Serverless Inference 도입 시 ModelNotReadyException 대응을 위한 Retry 및 Fallback 경로 확보 여부 검토 - 고정 비용 절감을 위해 비즈니스 시간대 외 Application Auto Scaling 적용 고려 - Multi-Region 설계 시 데이터 복제 주기와 복구 목표 시간(RTO/RPO)에 따른 DR Tier 정의 선행 - Infrastructure as Code 배포 전 Static Analysis(Linting, Guard) 단계의 자동화 게이트 구축

원문 읽기