AWS MLOps 분산학습 워크숍 방문기

AWS MLOps 워크숍 참석을 통해 SageMaker의 ETL, Feature Store, Model Registry, Model Monitoring 등 통합 기능과 Data Parallelism/Model Parallelism 기반 분산학습 전략 확인

2023년 1월 10일12분intermediate

AI 요약

Context

기업들이 Machine Learning을 실제 공정과 서비스에 적용하면서 MLOps 환경 구축과 대규모 모델 학습의 필요성이 증대되고 있다. 데이터 드리프트 발생 시 모델 성능 저하 문제와 대규모 데이터·모델 파라미터 학습에 따른 컴퓨팅 리소스 증가 문제가 발생한다.

Technical Solution

SageMaker를 통한 MLOps 통합 제공: ETL tool, Feature Store, Model Registry, Model Artifact, Deployment, Model Monitoring, Model Orchestration을 단일 플랫폼에서 제공
분산학습 방식 2가지 지원: Data Parallelism(데이터 병렬처리)과 Model Parallelism(모델 병렬처리)을 Trainium 칩으로 구현
학습 비용 절감: SageMaker Ephemeral Training 클러스터에서 관리형 Spot Instance 활용
데이터 크기별 최적화: 테라바이트급 데이터에는 Amazon FSx Lustre 사용
성능 병목 분석: SageMaker Debugger를 통해 CPU/GPU bottleneck 구간 확인
데이터 드리프트 모니터링: Data Clarify와 Model Monitor를 활용한 입력 데이터 통계적 분포 변화 감지 및 재학습 시기 자동화
다양한 추론 포트폴리오 제공: 데이터 과학자와 엔지니어의 스킬 셋에 따라 다른 추론 도구 지원

Impact

아티클에 정량적 수치가 명시되지 않음.

Key Takeaway

MLOps 실무 적용 시 Data Parallelism과 Model Parallelism의 선택, Spot Instance 활용에 따른 비용 절감과 데이터 크기별 저장소 최적화(FSx Lustre)가 필수 설계 고려사항이며, Data Clarify와 Model Monitor를 통해 배포 후 데이터 드리프트 모니터링과 자동 재학습 트리거를 구현할 수 있다.

실천 포인트

SageMaker를 도입하는 머신러닝 팀에서 Data Parallelism으로 데이터를 분할 학습하고 Model Parallelism으로 대규모 모델을 분산 학습할 때, SageMaker Debugger로 CPU/GPU 병목을 측정한 뒤 테라바이트급 데이터는 Amazon FSx Lustre로 저장하면 학습 성능과 비용을 동시에 최적화할 수 있다. 또한 Model Monitor와 Data Clarify를 설정하여 프로덕션 입력 데이터의 통계적 분포 변화를 감지하고 자동으로 재학습 시기를 결정할 수 있다.

태그

#Distributed Training #MLOps #AWS SageMaker #Model Monitoring #Data Drift

원문 읽기