데이터사이언스팀이 예측모델을 개발하고 운영하는 방법을 소개합니다.
컬리 데이터사이언스팀이 수요예측 모델을 배포 후 관리·운영 단계에서 Regression 앙상블, Anomaly Detection 시스템, 사후 대응 프로세스 도입으로 1% 정확도 향상에 따른 물류 비용 감소 실현
AI 요약
Context
전통적인 시계열 모델만으로는 외부 변화(이벤트, 프로모션, 계절 변화)에 민감하게 대응하기 어렵고, 배포된 모델 수가 증가하면서 데이터 수집 누락, 이상치 발생, 비즈니스 프로세스 변경 대응에 상당한 시간이 소요되었다. 모델 개발 단계만 중시하고 배포 후 운영·사후 대응 프로세스가 체계화되지 않아 모델 성능 저하 원인 파악 및 대응이 지연되는 문제가 발생했다.
Technical Solution
- 타깃값(y)만 사용하는 시계열 모델에서 30일 이전 주문 수, 이동평균(rolling mean), 지수 가중 이동평균(ewm)을 피처로 활용한 다중 Regression 모델 앙상블로 변경
- 권역/지역, 배송유형, 상품(SKU), 온도 기준으로 세분화된 수요 예측 구조 도입: D+30, D+7, D+1, D-day 등 여러 시점별 타이밍 설정
- 당일 매출액과 주문 수를 30분 주기로 업데이트하는 배치 프로세스 구축 및 데이터멍이 봇을 통해 Slack, 대시보드로 전사 제공
- Airflow 기반 배치 프로세스 구조, MLflow, Feature Store를 활용한 모델 버전 관리 및 피처 추적 체계 구축
- Anomaly Detection 시스템 도입으로 데이터 수집 누락, 이상치, 오염 데이터를 자동 감지하고 신속한 대응
- 모델 학습 및 테스트 시점 설정 시 예측 수행일 기준으로 Leakage 발생 가능성을 최소화하는 방식 적용 (예측 수행일 12-03 기준 학습: 12-02까지, 테스트: 12-04)
- DB 구조 변경, 물류 권역 확장, 상품 및 정책 변경, 신규 이벤트/프로모션/명절 특수에 대응하는 코드 및 대시보드 즉시 반영 프로세스
- 모델 성능 저하 시 새로운 피처, 알고리즘 탐색 또는 모델링 구조 변경으로 고도화
- 현업 운영 단계에서 룰 기반 대응, 유관 팀과 알람 프로세스 도입 등 대체 운영 방식 병행
Impact
단 1%의 정확도 향상이 물류 비용 증감에 큰 영향을 미침.
Key Takeaway
예측 모델의 성능은 알고리즘이나 피처 엔지니어링 개선도 중요하지만, 배포 후 데이터 품질 관리, 외부 변화 대응, 사후 분석 체계가 실제 비즈니스 임팩트를 결정한다. 시계열 모델의 전통적 가정에 벗어나 회귀 모델과 이전 시점 피처를 결합하고, Anomaly Detection으로 조기 감지하며, 비즈니스 맥락을 종합적으로 고려한 성능 분석이 필수다.
실천 포인트
예측 모델 운영팀은 시계열 모델 대신 과거 관측값(lag features)과 이동평균, 지수가중이동평균을 피처로 활용한 Regression 앙상블을 도입하면 외부 변화(이벤트, 계절)에 더 빠르게 적응할 수 있다. 또한 Anomaly Detection 시스템으로 데이터 수집 누락과 이상치를 자동 감지하고, 예측 수행 시점 기준으로 학습/테스트 시간을 엄격히 분리해 Leakage를 방지하며, MAPE, RMSE 같은 정확도 지표와 함께 비즈니스 맥락(과대/과소예측 경향성, 외부 사건)을 종합 분석하면 모델 신뢰도를 크게 향상시킬 수 있다.