피드로 돌아가기
Dev.toInfrastructure
원문 읽기
비용 70% 절감 및 RPO Zero를 달성한 SageMaker Serverless 및 Multi-Region 아키텍처 설계
Serverless Inference, Cost Optimization, CI/CD Pipelines, and Multi-Region Architecture for FSx for ONTAP S3 Access Points — Phase 5
AI 요약
Context
sporadic workload 발생 시 상시 가동 인스턴스로 인한 비용 낭비와 단일 리전 구성에 따른 시스템 전체 장애 위험 존재. 기존의 Real-time Endpoint 중심 구조에서 발생하는 고정 비용 및 수동 배포의 확장성 한계를 해결해야 하는 상황.
Technical Solution
- Batch, Real-time, Serverless 3가지 경로를 선택하는 Deterministic Routing 로직을 통한 트래픽 패턴별 최적 인프라 할당
- Serverless Inference의 Cold Start(6~45s) 대응을 위해 60s 타임아웃 설정 및 Step Functions를 활용한 Batch Transform 자동 Fallback 구조 설계
- Application Auto Scaling 기반의 Scheduled Scaling 및 60분 유휴 상태 감지 시 Auto-Stop Lambda를 통한 비용 최적화 자동화
- DynamoDB Global Tables를 활용한 Task Token Store 복제 및 CrossRegionClient 기반의 리전 간 Failover 체계 구축
- OIDC 인증 기반 GitHub Actions와 4단계 Gating(cfn-lint, pytest, cfn-guard, Bandit)을 통한 CI/CD 파이프라인 정형화
- RPO near-zero를 목표로 하는 Tier 1부터 Tier 3까지의 DR 등급 정의 및 이에 따른 Failover Runbook 수립
실천 포인트
- Serverless Inference 도입 시 ModelNotReadyException 대응을 위한 Retry 및 Fallback 경로 확보 여부 검토 - 고정 비용 절감을 위해 비즈니스 시간대 외 Application Auto Scaling 적용 고려 - Multi-Region 설계 시 데이터 복제 주기와 복구 목표 시간(RTO/RPO)에 따른 DR Tier 정의 선행 - Infrastructure as Code 배포 전 Static Analysis(Linting, Guard) 단계의 자동화 게이트 구축
태그