피드로 돌아가기
Dev.toAI/ML
원문 읽기
Prompt Cache Hit Ratio 가시화를 통한 LLM 비용 최적화 및 Regression 방지
How to measure prompt cache hit ratio in your Hermes Agent
AI 요약
Context
Hermes Agent의 추상화된 Tool-and-skill loop 구조로 인해 모델 호출 단계의 Cache Hit 여부 확인이 불가능한 Observability 한계 존재. Cache-breaking 발생 시 비용이 급격히 상승함에도 불구하고, 제공자 인보이스 확인 전까지는 이를 인지할 수 없는 구조적 문제 직면.
Technical Solution
- Provider Plugin 단계에서 모델 클라이언트를 래핑하는 CacheTracker 도입을 통한 실시간 메트릭 수집
messages.create및chat.completions.create메서드에 대한 Wrapper 설계를 통한 Vendor-neutral한 캐시 메타데이터 파싱 로직 구현- 요청의 System message, Tools, Prior turns를 해싱한
prefix_id기반의 Prefix별 Hit Ratio 추적 구조 설계 miss_alert_threshold설정 및 Callback 함수 연결을 통한 Cache Miss 발생 시 즉각적인 Structured Warning 알림 체계 구축- Cache propagation 시간을 고려하여 Silent Provider Miss 발생 시 2초 대기 후 재시도하는
miss_awareRetry 정책 적용 on_session_end훅을 활용한 세션 단위의 누적 캐시 효율성 집계 및 보고 프로세스 정립
실천 포인트
1. System message 내 현재 시간 등 동적 값 포함 여부 확인 및 Tool call로 분리
2. 세션 내 Toolset의 일관성 유지 및 동적 변경 지양
3. CI 테스트 단계에서 시나리오 기반의 최소 Cache Hit Ratio 임계치 검증 추가
4. Provider별 상이한 캐시 메타데이터 필드를 추상화하는 래퍼 라이브러리 검토