FastAPI와 Celery 기반 Async Inference 구조를 통한 ML 서빙 최적화

I built a production ML inference API with FastAPI, Celery and Docker — here's the full architecture

sada2026년 6월 21일1분intermediate

AI 요약

Context

모델 학습 이후의 Production 배포 단계에서 발생하는 실시간 추론의 병목 현상 해결 필요. 단순 동기식 API 구조로는 무거운 ML 모델의 추론 시간 동안 HTTP 커넥션이 점유되는 한계 존재.

실천 포인트

1. ML 추론 시간이 HTTP Timeout 임계치를 초과하는지 확인 후 Async Queue 도입 검토

2. Broker와 Result Backend의 기능적 요구사항을 분석하여 Redis 등 단일 솔루션 적용 가능 여부 판단

3. CI/CD 단계의 테스트 속도 향상을 위해 외부 의존성을 배제한 Eager mode 설정 적용

태그