피드로 돌아가기
Dev.toAI/ML
원문 읽기
매출 23% 점유하는 LLM 비용의 고객별 attribution 체계 구축
How to track LLM costs per customer in production
AI 요약
Context
멀티테넌트 AI 제품에서 단순 합산 대시보드로는 개별 고객의 수익성 판단이 불가능한 한계 발생. 특히 90분위수 헤비 유저로 인한 마진 급락 리스크가 존재하며, 실시간 비용 추적 부재 시 잘못된 Pricing 모델로 인한 손실 가능성이 큼.
Technical Solution
- Organization, End-user, Session/Task 세 가지 ID를 모든 모델 호출 시 전파하는 다차원 데이터 모델 설계
- Provider-side Metadata 활용을 통한 저비용 보험 성격의 기본 추적 레이어 구성
- Client-side Instrumentation 또는 Gateway Proxy 도입을 통한 실시간 비용 계산 및 Provider 독립적 제어권 확보
- Raw Log 기반의 사후 계산 방식이 갖는 캐시 토큰 누락 및 가격 변동 대응 취약점 배제
- 실시간 Wallet Attribution 인프라를 통한 사용량 기반 과금(Usage-based Billing) 체계 연결
- 상위 5% 고비용 사용자 식별을 통한 모델 스위칭 및 쿼리 캡(Cap) 적용 로직 구현
실천 포인트
- 비용 추적 시 Org/User/Task ID를 모두 포함하여 전파하고 있는가? - Provider 종속적인 Metadata 외에 자체적인 Client/Gateway 추적 수단을 확보했는가? - 단순 사용량이 아닌 '절대 지출 금액' 기준의 상위 5% 사용자 알림 체계가 있는가? - 실시간 비용 데이터가 모델 변경이나 가격 조정 등의 의사결정에 즉각 반영되는 구조인가?