피드로 돌아가기
Dev.toAI/ML
원문 읽기
5개 LLM Provider 통합 Prompt Caching으로 토큰 비용 최적화 및 캐시 가시성 확보
Cache-Aware Spawning: What Changed in llm-cli-gateway, a Week On
AI 요약
Context
다양한 LLM Provider 사용 시 동일한 System Prompt와 대규모 컨텍스트를 반복 전송함에 따른 중복 토큰 비용 발생. Provider별로 상이한 Cache API 구현으로 인해 통합 관리 및 최적화에 높은 공수 소요.
Technical Solution
- promptParts 구조 도입을 통한 입력 데이터의 정형화 및 System, Tools, Context, Task 순의 Canonical Order 정렬
- 정적인 Stable Prefix를 전면에 배치하여 Provider별 자동 Prompt Caching의 Content Hash 일치 유도
- CLI Wrapper 아키텍처를 유지하며 API Proxy로 전환하지 않고 입력 문자열 구성 단계에서 Cache Awareness 구현
- cache_state:// MCP 리소스를 통한 Hit-rate, Hit-count, Estimated-savings 등의 텔레메트리 데이터 노출
- Claude 캐시 만료 30초 전 경고 알림을 통한 세션 유지 전략 최적화
- Mistral Vibe 통합으로 xAI, Mistral 등 다양한 벤더 라인업 확장을 통한 모델 간 검증 분포 다양화
실천 포인트
- LLM 입력 설계 시 변동성이 낮은 데이터(System Prompt, Repo Summary)를 항상 앞단에 배치하는 Prefix Discipline 적용 - API 직접 호출 대신 CLI Wrapper 계층에서 입력 전처리를 수행하여 비즈니스 로직과 Provider별 API 제약을 분리 - 캐시 적중률(Hit-rate)과 예상 절감 비용을 측정 가능한 지표로 관리하여 인프라 비용 최적화 근거 확보