피드로 돌아가기
Dev.toInfrastructure
원문 읽기
Multi-Provider Routing 및 Token 최적화 기반 LLM 비용 절감 아키텍처
9router: route Claude Code, Cursor, or Copilot through whichever free tier you've got
AI 요약
Context
단일 LLM Provider 사용 시 발생하는 Rate Limit 도달 및 과도한 Token 소모로 인한 비용 증가 문제 발생. 특히 IDE Agent의 verbose한 툴 출력값이 불필요한 Token 낭비를 유발하는 구조적 한계 존재.
Technical Solution
- OpenAI-compatible Endpoint를 제공하는 Local Proxy 서버 구축을 통한 Provider 추상화
- Combo Abstraction 설계를 통한 Round-robin 및 Sticky-round-robin 기반의 Multi-account 트래픽 분산 구조 구현
- RTK(Reverse Token Killer) 필터 레이어 도입으로 tool output의 Noise를 제거하여 LLM 입력 Token 최적화
- Caveman Mode의 System-prompt 압축 기법을 통한 출력 Token 소모량 제어
- Antigravity MITM Proxy 설계를 통한 VS Code Copilot 트래픽의 강제 리라우팅 및 Provider 전환
- Translator 패턴을 적용하여 각 LLM Provider의 Native API를 OpenAI 표준 규격으로 변환
실천 포인트
1. LLM API 비용 최적화를 위해 Prompt 단계뿐 아니라 Output 필터링 레이어(RTK 방식) 검토
2. 가용성 및 처리량 증대를 위해 Multi-provider 간의 Load Balancing 전략(Round-robin 등) 적용
3. 외부 API 의존성 제거를 위해 OpenAI-compatible Proxy를 통한 Provider 추상화 계층 도입
4. Agentic Workflow 설계 시 Tool 실행 결과의 데이터 밀도를 높이는 전처리 로직 반영