Vertex AI Grounding 비용 ₩1,300,000 누수 해결 및 Telemetry 최적화

Vertex AI Grounding Cost Gap: Diagnosing the Missing $1300 on My Solo VM

박준희2026년 6월 7일3분intermediate

AI 요약

Context

단일 소형 VM 환경에서 Vertex AI 기반 제품 운영 중 GCP 청구 금액과 내부 관리 대시보드 간의 심각한 비용 괴리 발생. 기존 시스템이 Token 사용량 중심으로만 비용을 추적하여 Google Search Grounding과 같은 별도 SKU 비용을 감지하지 못한 설계 한계 노출.

Technical Solution

Google Search Tool의 상시 활성화(GEMINI_SEARCH_ALWAYS=1) 설정으로 인한 불필요한 Grounding 요청 발생 확인
gemini_llm_service.py 내 ctx.search_used 상태를 감지하여 UsageRepository.record_grounding을 호출하는 명시적 Cost Logging 로직 구현
Token-centric 모니터링에서 SKU-based Telemetry 구조로 변경하여 Grounding 비용($0.035/1k requests)을 개별 추적
_needs_search(user_text) 함수를 도입하여 최신성, 특정 키워드, URL 포함 여부에 따라 Search Tool 호출 여부를 결정하는 Conditional Triggering 매커니즘 설계
무분별한 Grounding 호출을 차단하고 실제 필요 시에만 API를 호출하는 스마트 트리거링 전략 적용

실천 포인트

1. LLM 서비스 도입 시 Token 외 별도 과금 SKU(Grounding, Image Gen 등) 리스트 확인

2. API 응답 컨텍스트 내 Tool 사용 여부 플래그를 활용한 개별 비용 로깅 구현

3. 상시 활성화(Always-on) 옵션 대신 입력값 분석 기반의 조건부 실행(Conditional Trigger) 로직 검토

4. 서비스별 SKU 단위로 비용을 분류하여 대시보드에 시각화하는 Telemetry 파이프라인 구축

태그

#LLM Cost Optimization #FinOps #Grounding #Telemetry #Vertex AI

원문 읽기