피드로 돌아가기
AWS News Blog
AI/ML

Announcing Amazon SageMaker Inference for custom Amazon Nova models

AWS가 Amazon SageMaker Inference에 커스텀 Amazon Nova 모델 지원을 추가해 G5/G6 인스턴스 기반 배포와 5분 단위 자동 스케일링으로 추론 비용 최적화 제공

Channy Yun (윤석찬)2026년 2월 16일7intermediate

Context

AWS NY Summit 2025에서 Amazon Nova 커스터마이제이션을 출시한 후 고객들이 오픈 가중치 모델과 동일한 수준의 SageMaker Inference 기능을 요청했다. 프로덕션 워크로드에 필요한 인스턴스 타입, 자동 스케일링 정책, 컨텍스트 길이, 동시성 설정에 대한 더 세밀한 제어와 유연성이 부족했다.

Technical Solution

  • 커스텀 Nova 모델 배포 인스턴스 확대: P5 인스턴스 대신 EC2 G5와 G6 인스턴스(g5.12xlarge, g5.24xlarge, g5.48xlarge, g6.12xlarge, g6.24xlarge, g6.48xlarge) 지원으로 GPU 활용률 최적화
  • 세밀한 자동 스케일링 정책 추가: 5분 단위 사용 패턴 기반 자동 스케일링 구현
  • 추론 파라미터 설정 고도화: CONTEXT_LENGTH, MAX_CONCURRENCY, DEFAULT_TEMPERATURE, DEFAULT_TOP_P 등 환경 변수를 통한 커스텀 설정 지원
  • 배포 방식 단순화: SageMaker Studio UI에서 '모델 선택 → 인스턴스 타입 선택 → Deploy 버튼' 클릭으로 배포 가능
  • End-to-end 커스터마이제이션 경험: SageMaker Training Jobs 또는 Amazon HyperPod로 학습한 Nova Micro/Nova Lite/Nova 2 Lite 모델을 SageMaker Inference에서 배포 및 스케일링

Impact

SageMaker SDK를 통해 모델 객체 생성 시 런타임 파라미터(컨텍스트 길이: 8000, 최대 동시성: 16) 지정 가능하며, 시간당 청구 방식으로 최소 약정 없이 사용한 컴퓨팅 인스턴스에 대해서만 비용 청구된다.

Key Takeaway

프로덕션 ML 워크로드 배포 시 유연한 인스턴스 선택지, 세밀한 자동 스케일링, 런타임 파라미터 커스터마이제이션을 모두 지원하는 관리형 추론 서비스는 인프라 복잡도를 낮추면서 비용 효율성을 동시에 달성할 수 있다.


Amazon Nova로 미세조정한 모델을 프로덕션에 배포하려는 팀은 SageMaker Inference에서 Nova Micro 모델의 경우 g5.12xlarge부터 시작해 배포 후 5분 단위 자동 스케일링으로 모니터링하면서 컨텍스트 길이와 동시성 설정을 조정하면, 불필요한 상위 인스턴스 규모 선택 없이도 레이턴시-비용 트레이드오프를 최적화할 수 있다.

원문 읽기