피드로 돌아가기
Coinbase Cut Its AI Spend in Half Without Throttling Engineers - Here's the Playbook
Dev.toDev.to
AI/ML

LLM Gateway 최적화 및 Caching 도입 통한 AI 비용 50% 절감

Coinbase Cut Its AI Spend in Half Without Throttling Engineers - Here's the Playbook

Andrew Kew2026년 6월 30일2intermediate

Context

토큰 사용량의 기하급수적 증가에 따른 운영 비용 상승 문제 직면. 모든 작업에 고성능 모델을 일괄 적용하던 기존 방식의 비용 효율성 한계 노출.

Technical Solution

  • LLM Gateway 기반의 Default Model 변경을 통한 저비용 Open-weight 모델(GLM 5.2, Kimi 2.7) 우선 적용 구조 설계
  • Task-based Routing 로직 구현을 통한 작업 난이도 및 비용별 최적 모델 자동 매칭 시스템 구축
  • Prompt Caching 전략 강화를 통한 중복 요청 처리 최적화 및 API 호출 횟수 감소
  • Lean Context 관리 원칙 도입을 통한 불필요한 토큰 전송 방지 및 세션 초기화 최적화
  • 엔지니어별 토큰 사용량 가시화(Spend Visibility)를 통한 책임 기반의 자원 최적화 문화 조성

Impact

  • AI 전체 지출 비용 50% 절감
  • Caching Hit rate 5%에서 60%로 12배 향상
  • 고비용 모델 대비 최대 6배의 비용 효율 확보 (Anthropic Opus 대비 GLM 5.2 기준)

Key Takeaway

무조건적인 고성능 모델 사용보다 Task 복잡도에 따른 계층적 모델 라우팅과 캐싱 전략이 비용 최적화의 핵심임.


1. 현재 Caching Hit rate가 20% 미만인지 확인하고 Prompt 구조 개선 검토

2. Task를 'Simple/Complex'로 분류하여 모델을 분리하는 Routing 정책 적용

3. 기본 모델을 저비용 모델로 설정하고 필요 시에만 상위 모델을 선택하는 'Default Down, Opt Up' 구조 도입

원문 읽기