피드로 돌아가기
Dev.toInfrastructure
원문 읽기
Request Boundary 기반의 AI Token Cost Attribution 체계 구축
What makes AI API spend chargeback-safe by team/service?
AI 요약
Context
전체 Token 소비량은 파악 가능하나 팀, 서비스, 테넌트 단위의 세부 비용 정산(Chargeback)을 위한 데이터 연결 고리 부족. Shared API Key 사용과 Model Fallback 발생 시 실제 호출 모델과 청구 비용 간의 불일치로 인한 정산 분쟁 발생.
Technical Solution
- Request Time에 Team, Service, Tenant, Cost Center를 즉시 캡처하는 메타데이터 태깅 구조 설계
- 의도한 모델이 아닌 실제 호출된 Model 및 Input/Output/Cached Token 수를 정밀 추적하는 로직 구현
- Retries 및 Fallbacks 발생 시에도 단일 Original Request ID로 비용을 통합 관리하는 Idempotency 확보
- Gateway Log와 Provider Invoice를 Join하기 위한 Correlation ID 기반의 추적 경로 구축
- UX Context인 Conversation ID 대신 비용 증빙이 명확한 Request Boundary를 Chargeback 식별자로 채택
실천 포인트
- API Gateway 단계에서 Request-level의 Cost Center 태깅 강제 적용 - 모델 Fallback 시나리오를 반영하여 실제 호출 모델(Actual Model) 기록 필드 추가 - Retry로 인한 비용 중복 집계 방지를 위한 Request ID 기반의 Deduplication 로직 검토 - Invoice 대조를 위한 Price-card Versioning 시스템 도입