피드로 돌아가기
How to measure prompt cache hit ratio in your Hermes Agent
Dev.toDev.to
AI/ML

Prompt Cache Hit Ratio 가시화를 통한 LLM 비용 최적화 및 Regression 방지

How to measure prompt cache hit ratio in your Hermes Agent

Mukunda Rao Katta2026년 5월 19일5intermediate

Context

Hermes Agent의 추상화된 Tool-and-skill loop 구조로 인해 모델 호출 단계의 Cache Hit 여부 확인이 불가능한 Observability 한계 존재. Cache-breaking 발생 시 비용이 급격히 상승함에도 불구하고, 제공자 인보이스 확인 전까지는 이를 인지할 수 없는 구조적 문제 직면.

Technical Solution

  • Provider Plugin 단계에서 모델 클라이언트를 래핑하는 CacheTracker 도입을 통한 실시간 메트릭 수집
  • messages.createchat.completions.create 메서드에 대한 Wrapper 설계를 통한 Vendor-neutral한 캐시 메타데이터 파싱 로직 구현
  • 요청의 System message, Tools, Prior turns를 해싱한 prefix_id 기반의 Prefix별 Hit Ratio 추적 구조 설계
  • miss_alert_threshold 설정 및 Callback 함수 연결을 통한 Cache Miss 발생 시 즉각적인 Structured Warning 알림 체계 구축
  • Cache propagation 시간을 고려하여 Silent Provider Miss 발생 시 2초 대기 후 재시도하는 miss_aware Retry 정책 적용
  • on_session_end 훅을 활용한 세션 단위의 누적 캐시 효율성 집계 및 보고 프로세스 정립

1. System message 내 현재 시간 등 동적 값 포함 여부 확인 및 Tool call로 분리

2. 세션 내 Toolset의 일관성 유지 및 동적 변경 지양

3. CI 테스트 단계에서 시나리오 기반의 최소 Cache Hit Ratio 임계치 검증 추가

4. Provider별 상이한 캐시 메타데이터 필드를 추상화하는 래퍼 라이브러리 검토

원문 읽기