피드로 돌아가기
Monitoring LLM costs in production: tokens, tenants, and alerts
Dev.toDev.to
AI/ML

LLM Middleware 기반의 Tenant별 Unit Economics 추적 체계 구축

Monitoring LLM costs in production: tokens, tenants, and alerts

Amit Nabarro2026년 6월 23일14intermediate

Context

Provider Dashboard의 단순 합계 데이터로는 개별 Tenant 및 Feature별 비용 분석이 불가능한 구조적 한계 존재. 단순 토큰 합계라는 Lagging Indicator로는 비효율적인 Retrieval 및 모델 응답으로 인한 비용 낭비를 파악하기 어려움.

Technical Solution

  • Auth 및 Rate Limit을 처리하는 기존 LLM Middleware 레이어에 Cost Observability 로직을 통합하여 데이터 일관성 확보
  • Request-Response 사이클 내에서 tenantId, feature, model, outcome 등의 Structured Logging 필드를 강제하여 추적 가능성 부여
  • 단순 API 호출 비용이 아닌 '성공한 액션(Successful Action)' 기준의 Unit Economics 지표를 설계하여 비즈니스 가치와 비용 연결
  • RAG 파이프라인의 Embedding 및 Re-rank 비용을 LLM 생성 비용과 분리하여 추적하는 파이프라인 구축
  • Middleware 단계에서 Tenant별 Budget을 실시간 검증하고 초과 시 제어하는 Kill Switch 메커니즘 적용
  • OTel 및 Langfuse를 활용하여 Trace 레벨의 세부 분석과 메트릭 기반의 실시간 Alerting 체계 구성

1. 모든 LLM 호출 경로를 단일 Middleware로 통합했는가?

2. 로그에 tenantId, feature, outcome 필드가 포함되어 있는가?

3. 단순 토큰 수가 아닌 '사용자 가치 창출' 기준의 비용 지표를 정의했는가?

4. Embedding 및 Vector Store 비용을 별도로 트래킹하고 있는가?

5. 비용 급증 시 즉시 제어 가능한 Feature Flag 및 Kill Switch가 존재하는가?

원문 읽기