피드로 돌아가기
9router: route Claude Code, Cursor, or Copilot through whichever free tier you've got
Dev.toDev.to
Infrastructure

Multi-Provider Routing 및 Token 최적화 기반 LLM 비용 절감 아키텍처

9router: route Claude Code, Cursor, or Copilot through whichever free tier you've got

George Mihailov2026년 5월 10일4intermediate

Context

단일 LLM Provider 사용 시 발생하는 Rate Limit 도달 및 과도한 Token 소모로 인한 비용 증가 문제 발생. 특히 IDE Agent의 verbose한 툴 출력값이 불필요한 Token 낭비를 유발하는 구조적 한계 존재.

Technical Solution

  • OpenAI-compatible Endpoint를 제공하는 Local Proxy 서버 구축을 통한 Provider 추상화
  • Combo Abstraction 설계를 통한 Round-robin 및 Sticky-round-robin 기반의 Multi-account 트래픽 분산 구조 구현
  • RTK(Reverse Token Killer) 필터 레이어 도입으로 tool output의 Noise를 제거하여 LLM 입력 Token 최적화
  • Caveman Mode의 System-prompt 압축 기법을 통한 출력 Token 소모량 제어
  • Antigravity MITM Proxy 설계를 통한 VS Code Copilot 트래픽의 강제 리라우팅 및 Provider 전환
  • Translator 패턴을 적용하여 각 LLM Provider의 Native API를 OpenAI 표준 규격으로 변환

1. LLM API 비용 최적화를 위해 Prompt 단계뿐 아니라 Output 필터링 레이어(RTK 방식) 검토

2. 가용성 및 처리량 증대를 위해 Multi-provider 간의 Load Balancing 전략(Round-robin 등) 적용

3. 외부 API 의존성 제거를 위해 OpenAI-compatible Proxy를 통한 Provider 추상화 계층 도입

4. Agentic Workflow 설계 시 Tool 실행 결과의 데이터 밀도를 높이는 전처리 로직 반영

원문 읽기