Fetch가 Amazon SageMaker와 Hugging Face를 도입해 ML 파이프라인의 처리 지연을 50% 단축하고 문서 이해 모델 정확도를 200% 향상

Fetch Cuts ML Processing Latency by 50% Using Amazon SageMaker & Hugging Face

2023년 9월 1일8분intermediate

AI 요약

Context

Fetch는 주당 8천만 건 이상의 영수증을 처리하면서 초당 수백 건의 피크 트래픽을 감당해야 했으나, 영수증 텍스트 인식, 데이터 추출, 구조화를 빠르고 정확하게 수행하는 ML 파이프라인이 필요했다.

Technical Solution

Amazon SageMaker를 사용해 5개 이상의 커스텀 ML 모델을 12개월에 걸쳐 구축·훈련·배포
다중 GPU 인스턴스(Multi-GPU instances)를 활용한 모델 훈련으로 처리 속도 단축
Hugging Face AWS Deep Learning Container를 도입해 Transformer 모델의 훈련 및 추론 환경 표준화
Amazon SageMaker Training Jobs를 통해 모델 병렬 훈련 실현으로 개발·배포 주기 단축
Amazon SageMaker Inference Recommender를 도입해 부하 테스트와 모델 튜닝 자동화
커스텀 shadow testing 파이프라인을 Amazon SageMaker shadow testing으로 마이그레이션해 프로덕션 트래픽과 직접 비교 가능하게 개선

Impact

ML 처리 지연 50% 단축
문서 이해 모델 정확도 200% 향상
월간 활성 사용자 1천만 명에서 1천8백만 명으로 증가
3일 차 신입 인턴도 모델 배포 가능할 수준으로 배포 복잡도 감소

Key Takeaway

Managed ML 플랫폼(Amazon SageMaker)과 오픈소스 모델 라이브러리(Hugging Face)의 통합은 단순히 배포 편의성을 높이는 것을 넘어, 모델 훈련 병렬화, 자동 튜닝, Shadow Testing 자동화 등을 통해 개발 생산성과 모델 정확도를 동시에 극대화할 수 있다는 것을 보여준다.

실천 포인트

대규모 실시간 ML 추론이 필요한 서비스(영수증 인식, 문서 분류 등)에서 GPU 인스턴스 기반 Managed ML 플랫폼을 도입하면, 모델 훈련 병렬화와 Inference Recommender 자동 튜닝을 통해 처리 지연을 단축하고 배포 복잡도를 낮추면서도 모델 정확도를 대폭 개선할 수 있다.

태그

#GPU Inference #ML Pipeline #Amazon SageMaker #Deep Learning #Hugging Face

원문 읽기