피드로 돌아가기
원문 읽기
AWS News Blog
AI/MLAWS가 Amazon SageMaker Inference에 커스텀 Amazon Nova 모델 지원을 추가해 G5/G6 인스턴스 기반 배포와 5분 단위 자동 스케일링으로 추론 비용 최적화 제공
Announcing Amazon SageMaker Inference for custom Amazon Nova models
AI 요약
Context
AWS NY Summit 2025에서 Amazon Nova 커스터마이제이션을 출시한 후 고객들이 오픈 가중치 모델과 동일한 수준의 SageMaker Inference 기능을 요청했다. 프로덕션 워크로드에 필요한 인스턴스 타입, 자동 스케일링 정책, 컨텍스트 길이, 동시성 설정에 대한 더 세밀한 제어와 유연성이 부족했다.
Technical Solution
- 커스텀 Nova 모델 배포 인스턴스 확대: P5 인스턴스 대신 EC2 G5와 G6 인스턴스(g5.12xlarge, g5.24xlarge, g5.48xlarge, g6.12xlarge, g6.24xlarge, g6.48xlarge) 지원으로 GPU 활용률 최적화
- 세밀한 자동 스케일링 정책 추가: 5분 단위 사용 패턴 기반 자동 스케일링 구현
- 추론 파라미터 설정 고도화: CONTEXT_LENGTH, MAX_CONCURRENCY, DEFAULT_TEMPERATURE, DEFAULT_TOP_P 등 환경 변수를 통한 커스텀 설정 지원
- 배포 방식 단순화: SageMaker Studio UI에서 '모델 선택 → 인스턴스 타입 선택 → Deploy 버튼' 클릭으로 배포 가능
- End-to-end 커스터마이제이션 경험: SageMaker Training Jobs 또는 Amazon HyperPod로 학습한 Nova Micro/Nova Lite/Nova 2 Lite 모델을 SageMaker Inference에서 배포 및 스케일링
Impact
SageMaker SDK를 통해 모델 객체 생성 시 런타임 파라미터(컨텍스트 길이: 8000, 최대 동시성: 16) 지정 가능하며, 시간당 청구 방식으로 최소 약정 없이 사용한 컴퓨팅 인스턴스에 대해서만 비용 청구된다.
Key Takeaway
프로덕션 ML 워크로드 배포 시 유연한 인스턴스 선택지, 세밀한 자동 스케일링, 런타임 파라미터 커스터마이제이션을 모두 지원하는 관리형 추론 서비스는 인프라 복잡도를 낮추면서 비용 효율성을 동시에 달성할 수 있다.
실천 포인트
Amazon Nova로 미세조정한 모델을 프로덕션에 배포하려는 팀은 SageMaker Inference에서 Nova Micro 모델의 경우 g
5.12xlarge부터 시작해 배포 후 5분 단위 자동 스케일링으로 모니터링하면서 컨텍스트 길이와 동시성 설정을 조정하면, 불필요한 상위 인스턴스 규모 선택 없이도 레이턴시-비용 트레이드오프를 최적화할 수 있다.