피드로 돌아가기
Dev.toInfrastructure
원문 읽기
Redis Lua 기반 실시간 Token 컷오프를 통한 LLM 비용 폭주 방지
I got a $100 AI bill. Then I found the $80,000 ones. So I built a kill switch.(2026)
AI 요약
Context
사후 알림 방식의 기존 Budget Alert 체계로 인한 API Key 유출 및 무한 루프 시의 막대한 비용 발생 위험 존재. LLM 제공자의 알림 시스템이 실행 중단 권한이 없는 단순 모니터링 구조라는 한계점 분석.
Technical Solution
- 애플리케이션과 LLM 제공자 사이에 배치되어 Hard Dollar Cap을 강제하는 Reverse Proxy 구조 설계
- SSE Streaming 응답을 실시간 인터셉트하여 Chunk 단위로 Token을 계산하고 임계치 초과 시 즉시 연결을 끊는 Kill Switch 구현
- Redis Lua Script를 활용한 예산 차감 로직의 원자성(Atomicity) 확보로 TOCTOU Race Condition 제거
- 클라이언트의 중도 연결 종료 시 발생한 실제 Token 사용량을 계산하여 Redis 예산을 복구하는 Reconciliation 패턴 적용
- Redis 장애 시 모든 요청을 차단하는 Fail-closed 전략을 채택하여 비용 안전성 최우선 확보
- 6종의 LLM Provider 및 5가지 시간 윈도우 기반의 유연한 예산 관리 체계 구축
실천 포인트
- 외부 API 호출 시 사후 알림이 아닌 요청 단계에서 차단 가능한 Hard Limit 계층 검토 - 동시성 제어가 필요한 카운터 구현 시 Redis Lua Script를 통한 원자적 트랜잭션 처리 적용 - 스트리밍 데이터 처리 시 실시간 누적 계산 및 강제 종료 메커니즘 설계 - 인프라 장애 시 비용 발생을 막기 위한 Fail-closed 설계 원칙 적용