피드로 돌아가기
Uber Burned Through Its Entire AI Coding Budget in 4 Months. Here's What Smart Teams Do Instead.
Dev.toDev.to
AI/ML

Task-Level Routing 도입 통한 AI 토큰 비용 70% 절감

Uber Burned Through Its Entire AI Coding Budget in 4 Months. Here's What Smart Teams Do Instead.

Bo Shen2026년 6월 24일4intermediate

Context

단일 Frontier Model에 모든 요청을 처리하는 구조로 인한 토큰 비용의 기하급수적 증가 발생. Agentic Workflow의 특성상 무분별한 Thinking Loop가 반복되며 예산 예측 불가능성과 Vendor Lock-in 리스크 심화.

Technical Solution

  • Task 복잡도에 따른 모델 계층화(Tiering) 전략 수립
  • Frontier Tier: 복잡한 아키텍처 설계 및 심층 디버깅 등 고도의 Reasoning이 필요한 작업에 할당
  • Mid Tier: 명확한 명세 기반의 기능 구현 및 Code Review 등 지시 이행 능력이 중심인 작업에 할당
  • Fast Tier: Boilerplate 생성, 포맷팅, 문서화 등 결과 검증이 객관적인 단순 반복 작업에 할당
  • Session 단위가 아닌 개별 Task 단위의 Dynamic Routing 메커니즘 적용
  • API Prompt 로그 분석을 통한 Context Bloat 및 불필요한 Reasoning Loop 식별 및 최적화

Impact

  • 월 AI 비용 $10,000에서 $3,000로 약 70% 절감
  • 출력 품질 및 개발 속도의 저하 없는 비용 효율화 달성

Key Takeaway

모든 Task에 최대 지능을 투입하는 것은 자원 낭비이며, 작업의 복잡도와 모델의 추론 능력 간의 최적 접점을 찾는 Routing Layer 설계가 시스템 비용 최적화의 핵심임.


1. 최근 1주일간의 API Prompt 로그를 분석하여 모델별 토큰 소비 패턴 파악

2. 업무 성격에 따라 Frontier / Mid / Fast 3단계의 Task Category 정의

3. 세션 유지와 무관하게 개별 요청의 성격에 따라 모델을 스위칭하는 라우팅 로직 검토

4. Task당 비용(Cost-per-task) 지표를 설정하여 라우팅 실패 사례(오버스펙 또는 성능 부족) 모니터링

원문 읽기