Multi-Provider Routing 및 Token 최적화 기반 LLM 비용 절감 아키텍처

9router: route Claude Code, Cursor, or Copilot through whichever free tier you've got

George Mihailov2026년 5월 10일4분intermediate

AI 요약

Context

단일 LLM Provider 사용 시 발생하는 Rate Limit 도달 및 과도한 Token 소모로 인한 비용 증가 문제 발생. 특히 IDE Agent의 verbose한 툴 출력값이 불필요한 Token 낭비를 유발하는 구조적 한계 존재.

OpenAI-compatible Endpoint를 제공하는 Local Proxy 서버 구축을 통한 Provider 추상화
Combo Abstraction 설계를 통한 Round-robin 및 Sticky-round-robin 기반의 Multi-account 트래픽 분산 구조 구현
RTK(Reverse Token Killer) 필터 레이어 도입으로 tool output의 Noise를 제거하여 LLM 입력 Token 최적화
Caveman Mode의 System-prompt 압축 기법을 통한 출력 Token 소모량 제어
Antigravity MITM Proxy 설계를 통한 VS Code Copilot 트래픽의 강제 리라우팅 및 Provider 전환
Translator 패턴을 적용하여 각 LLM Provider의 Native API를 OpenAI 표준 규격으로 변환

실천 포인트

1. LLM API 비용 최적화를 위해 Prompt 단계뿐 아니라 Output 필터링 레이어(RTK 방식) 검토

2. 가용성 및 처리량 증대를 위해 Multi-provider 간의 Load Balancing 전략(Round-robin 등) 적용

3. 외부 API 의존성 제거를 위해 OpenAI-compatible Proxy를 통한 Provider 추상화 계층 도입

4. Agentic Workflow 설계 시 Tool 실행 결과의 데이터 밀도를 높이는 전처리 로직 반영

태그