Intent 기반 AI Router 구현으로 월 비용 41% 절감

I built a 200 line AI router in TypeScript. My monthly bill dropped 41%.

GDS K S2026년 5월 7일9분intermediate

AI 요약

Context

AI Wrapper 서비스의 불투명한 모델 선택 및 과도한 System Prompt 포함으로 인한 Orchestration Tax 발생. 특히 Cursor와 같은 도구가 사용자 요청과 무관하게 고비용 모델을 강제 할당하여 불필요한 Token 소비를 초래하는 구조적 한계 노출.

Technical Solution

요청의 Intent를 분석하여 모델을 동적으로 할당하는 200라인 규모의 TypeScript 기반 Router 설계
정규 표현식 및 프롬프트 길이를 활용한 Rule-based Routing 엔진 구현을 통한 처리 모델 최적화
단순 조회(Trivial) $\rightarrow$ Haiku, 코드 구현(Code) $\rightarrow$ Sonnet, 아키텍처 설계(Plan) $\rightarrow$ Opus로 이어지는 비용 계층화 전략 적용
Wrapper의 추상화 레이어를 제거하고 직접 API Call을 수행하여 Context Window에 포함되는 불필요한 Token 제거
각 모델별 Input/Output Token 단가를 매핑한 Pricing Table을 구축하여 실시간 비용 추적 가능 구조 확보

실천 포인트

1. 현재 사용 중인 AI 모델의 호출 비율(Cheap vs Expensive) 데이터 확보

2. 단순 텍스트 매칭이나 길이 기반의 Rule-set을 정의하여 저비용 모델로 전환 가능한 워크로드 식별

3. Wrapper 서비스가 추가하는 Hidden Token(System Prompt, Context) 규모 측정

4. 비용 로깅 시스템을 먼저 구축한 후 점진적인 Routing 로직 적용

태그

#LLM Cost Management #Token Optimization #Orchestration Tax #Intent-based Routing #TypeScript

원문 읽기