피드로 돌아가기
I Cut Our Image Captioning Costs 60% — Here's the Backend Story
Dev.toDev.to
AI/ML

Tiered Routing 기반 모델 최적화로 이미지 캡셔닝 비용 60% 절감

I Cut Our Image Captioning Costs 60% — Here's the Backend Story

gentleforge2026년 6월 14일11intermediate

Context

모든 이미지 캡셔닝 요청에 GPT-4o 모델을 일괄 적용한 단순 구조 설계. 월 800만 건의 대규모 트래픽 발생에 따른 API 비용 급증 및 불필요한 토큰 낭비 문제 직면.

Technical Solution

  • Unified API Gateway 도입을 통한 다중 모델 연동 오버헤드 제거 및 Provider 교체 유연성 확보
  • 이미지 복잡도에 따른 3단계 Tiered Router 설계로 처리 비용 최적화
  • 단순 상품 컷(60%) 및 일반 사진(30%)은 저비용 모델(DeepSeek V4 Flash 등)로 처리
  • 복잡한 스크린샷 및 차트(10%) 등 고도의 추론이 필요한 케이스만 고성능 모델로 라우팅
  • 동일 이미지에 대한 중복 호출 방지를 위한 Caching 레이어 구축으로 불필요한 API 호출 제거
  • 서비스 가용성 확보를 위한 Fallback 메커니즘 구현 및 설정 기반의 모델 스위칭 구조 채택

Impact

  • 전체 인프라 비용 60% 이상 절감
  • 특정 엔드포인트 기준 비용 최대 89% 감소 (GPT-4o → DeepSeek V4 Flash)
  • 모델 최적화를 통한 응답 Latency 개선 및 캡셔닝 품질 유지

1. 모든 요청에 최고 사양 모델을 사용하는 대신, 데이터 복잡도에 따른 Tiered Routing 적용 검토

2. Provider 종속성 탈피를 위해 Unified API 인터페이스 또는 어댑터 패턴 도입

3. 단순 텍스트 생성 작업의 경우 벤치마크를 통해 저비용 모델의 대체 가능성 검증

4. 캐싱 전략과 Fallback 모델 설정을 통한 비용 최적화 및 시스템 안정성 동시 확보

원문 읽기