피드로 돌아가기
Slack AI: The Path to Multi-Cloud
Slack EngineeringSlack Engineering
Infrastructure

SageMaker에서 Bedrock 기반 Multi-Cloud로 전환하여 LLM 운용 효율 및 모델 적시성 극대화

Slack AI: The Path to Multi-Cloud

Shaurya Kethireddy2026년 5월 28일16advanced

Context

AWS SageMaker 기반의 자체 모델 서빙 환경에서 GPU 인스턴스 확보 난항 및 확장 지연으로 인한 운영 오버헤드 발생. 특히 Bedrock 대비 모델 업데이트 속도가 늦어 최신 LLM 성능을 즉각 반영하지 못하는 Feature Lag 문제 직면.

Technical Solution

  • GPU 인스턴스 관리 방식에서 Model Units(MU) 기반의 추상화된 처리량 제어 방식으로 전환하여 하드웨어 의존성 제거
  • Provisioned Throughput(PT)을 통한 실시간 채널 요약의 지연 시간 최적화 및 On-Demand(OD)를 통한 배치 작업의 비용 효율화 달성
  • Escrow VPC 전략을 통한 Zero-knowledge 환경 구축으로 기업 데이터 프라이버시 및 FedRamp 규정 준수 보장
  • Feature Flag와 점진적 트래픽 전이 전략을 적용하여 가동 중단 없는 Zero Incident Migration 수행
  • 특정 클라우드 벤더 종속성을 탈피하여 플랫폼 장애 시 자동 Failover가 가능한 Multi-provider 오케스트레이션 레이어 설계
  • p90 Latency 스파이크를 소프트 실패로 정의하는 라우팅 로직을 통해 사용자 경험의 일관성 유지

- LLM 도입 시 모델 자체보다 모델을 교체 가능한 추상화 레이어(Abstraction Layer) 설계에 집중할 것 - 트래픽 성격에 따라 Provisioned(실시간)와 On-Demand(배치) 인프라를 분리하여 비용과 성능을 최적화할 것 - 모델 서빙 성능 지표 설정 시 단순 Up/Down 여부가 아닌 p90 지연 시간 기반의 성능 임계치를 설정할 것 - Multi-cloud 전략 수립 시 법무, 보안, 컴플라이언스 팀과의 XFN Parity를 선제적으로 확보할 것

원문 읽기