리디 추천 시스템, MLOps Platform에 올라탈 결심

리디가 AWS SageMaker를 도입해 모델 학습·추론 파이프라인 기술 스택을 간소화하고 학습-추론 분리를 통해 운영 자동화 실현

Data Engineering2024년 8월 20일12분intermediate

AI 요약

Context

리디의 추천 시스템은 딥러닝 기반 전환(2022년) 후 Feature Store 구축(2023년)으로 확장했으나, 모델 버전 관리 부재, 학습과 추론의 강결합, 다양한 도구 간의 운영 복잡성으로 인한 개발 리소스 낭비가 발생했다. 실험 단계에서 Bazel, EKS, Karpenter, Nvidia device plugin 등 복수 도구를 조합해야 했고, 추론이 항상 직전 학습 모델 체크포인트에 의존하는 구조로 확장성이 제한되었다.

Technical Solution

SageMaker Training 도입: 실험 단계 기술 스택 단순화 → Bash 스크립트 + ECR + SageMaker SDK로 변경, GPU 프로비저닝/할당 자동화로 Karpenter, Nvidia device plugin 제거
SageMaker Model Registry 도입: 학습된 모델 메타데이터(이미지 URI, 모델 데이터 URL, 콘텐츠 타입 등)를 중앙에서 관리하고 승인 상태(PendingManualApproval) 설정
학습-추론 파이프라인 분리: Airflow에서 Train Job 실행 후 Model Registry 등록 스테이지 추가, 추론 시 직전 학습 모델 대신 Registry에서 가장 최근 승인된 모델 체크포인트 자동 조회 (fetch_model_checkpoint 함수)
롤백 자동화: 추론 작업이 Model Registry에서 동적으로 모델을 선택하도록 변경해 이전 버전 모델로의 빠른 전환 가능
실험 관리 강화: SageMaker Experiments를 통해 Fine-tuning 과정의 각 시도(trial)별 지표 시각화 및 비교
TCO 검토: 개발·운영 리소스 절감(도구 통합), 개발 생산성 향상, 운영 효율성 및 확장성 개선을 기반으로 도입 결정

Impact

아티클에 정량적 수치(성능 개선율, 비용 절감액, 시간 단축)가 명시되어 있지 않음.

Key Takeaway

관리형 MLOps 플랫폼(SageMaker)은 단순한 도구 교체가 아니라 학습-추론 의존성을 명시적으로 분리하고 중앙 집중식 모델 레지스트리를 통해 변경 영향 범위를 제한함으로써 운영 안정성과 확장성을 동시에 확보할 수 있게 한다. 특히 Airflow 같은 오케스트레이션 도구와 결합할 때 모델 버전 관리와 자동 롤백을 파이프라인 수준에서 일관되게 구현할 수 있다.

실천 포인트

딥러닝 기반 추천 시스템을 운영 중인 팀에서 Airflow + SageMaker 조합을 도입하면, Model Registry의 동적 모델 선택을 통해 새 버전 배포 시 추론 파이프라인 수정 없이 즉시 적용·롤백이 가능하며, SageMaker Training으로 학습 인프라 관리(GPU 프로비저닝, 도커 빌드 최소화)를 자동화해 ML Engineer의 비즈니스 작업 집중도를 높일 수 있다.

태그

#MLOps #Pipeline Orchestration #SageMaker #Model Registry #Airflow

원문 읽기