피드로 돌아가기
Dev.toBackend
원문 읽기
JS Proxy 기반 실시간 비용 가드 도입으로 LLM API 예산 초과 차단
I almost burned ₹4,000 on Claude API overnight — so I built llm-cost-guard
AI 요약
Context
LLM API의 비동기적 비용 청구 구조와 제공사의 사후 알림 시스템으로 인한 런타임 비용 제어 불가 문제 발생. 특히 재시도 로직 오류나 프롬프트 길이 예측 실패 시 예산이 급격히 소모되는 구조적 취약점 보유.
Technical Solution
- JavaScript Proxy 패턴을 활용한 SDK 래퍼 설계로 기존 코드 수정 없는 인터셉터 구현
- API 응답 내 usage 객체의 실제 token count를 직접 참조하여 추측치 기반의 오차 제거
- 내장 Pricing Table을 통한 실시간 USD 환산 및 Redis 기반의 분산 환경 상태 관리
- Request 실행 전 pre-flight estimate 단계와 완료 후 정산 단계를 구분한 Streaming 비용 처리
- throw, warn 등 다양한 onLimit 정책 설정을 통한 런타임 제어권 확보
실천 포인트
- LLM API 호출부 전후에 비용 추적 인터셉터 계층 구현 검토 - 단순 에러 핸들링 외에 API 응답의 token usage를 기록하는 로깅 시스템 구축 - 분산 환경에서 비용 제한을 공유하기 위한 Redis 기반의 Centralized Quota 관리 적용