5개 LLM Provider 통합 Prompt Caching으로 토큰 비용 최적화 및 캐시 가시성 확보

Cache-Aware Spawning: What Changed in llm-cli-gateway, a Week On

Werner Kasselman2026년 5월 26일14분intermediate

AI 요약

Context

다양한 LLM Provider 사용 시 동일한 System Prompt와 대규모 컨텍스트를 반복 전송함에 따른 중복 토큰 비용 발생. Provider별로 상이한 Cache API 구현으로 인해 통합 관리 및 최적화에 높은 공수 소요.

Technical Solution

promptParts 구조 도입을 통한 입력 데이터의 정형화 및 System, Tools, Context, Task 순의 Canonical Order 정렬
정적인 Stable Prefix를 전면에 배치하여 Provider별 자동 Prompt Caching의 Content Hash 일치 유도
CLI Wrapper 아키텍처를 유지하며 API Proxy로 전환하지 않고 입력 문자열 구성 단계에서 Cache Awareness 구현
cache_state:// MCP 리소스를 통한 Hit-rate, Hit-count, Estimated-savings 등의 텔레메트리 데이터 노출
Claude 캐시 만료 30초 전 경고 알림을 통한 세션 유지 전략 최적화
Mistral Vibe 통합으로 xAI, Mistral 등 다양한 벤더 라인업 확장을 통한 모델 간 검증 분포 다양화

실천 포인트

- LLM 입력 설계 시 변동성이 낮은 데이터(System Prompt, Repo Summary)를 항상 앞단에 배치하는 Prefix Discipline 적용 - API 직접 호출 대신 CLI Wrapper 계층에서 입력 전처리를 수행하여 비즈니스 로직과 Provider별 API 제약을 분리 - 캐시 적중률(Hit-rate)과 예상 절감 비용을 측정 가능한 지표로 관리하여 인프라 비용 최적화 근거 확보

태그

#Multi-LLM Routing #MCP #Prompt Caching #Token Optimization #CLI Wrapper

원문 읽기