피드로 돌아가기
Dev.toAI/ML
원문 읽기
API Quota 고갈 방지를 위한 Header 기반 Backpressure 제어 시스템 llmfleet 구축
I burned my Anthropic org cap and waited 3 days. Then I built llmfleet.
AI 요약
Context
Claude Opus API 호출 시 SDK의 개별 Exponential Backoff 로직으로 인한 429 에러 지속 발생 및 Org 수준의 Daily Token Budget 초과로 인한 서비스 중단 경험. 단순한 재시도 전략으로는 롤링 윈도우 방식의 Quota 제한을 효율적으로 관리하기 어려운 구조적 한계 노출.
Technical Solution
anthropic-ratelimit-tokens-remaining헤더를 실시간 모니터링하여 요청 속도를 조절하는 Pooled Dispatcher 설계- Soft Token Floor 및 Hard Token Floor 도입을 통한 단계적 요청 제어로 429 에러의 원천 차단
- Little's Law를 적용하여 Latency(L)와 목표 Throughput(R)에 최적화된
max_in_flight값 자동 계산 - SDK의 내부 Retry 기능을 비활성화하고 Pool 수준에서 공유 Retry Budget을 관리하는 중앙 집중형 제어 구조 채택
- 실행 중인 총 비용을 추적하여 설정된 USD Cap 초과 시 즉시 중단하는 Cost Guard 메커니즘 구현
- 결과 반환 시 제출 순서가 아닌 완료 순서로 Yield 하는 Async Iterator 구조를 통한 처리 효율 극대화
실천 포인트
API Rate Limit 대응 시 SDK 기본 Retry에 의존하지 말고, API 응답 헤더의 잔여 쿼터 정보를 활용한 중앙 집중형 Backpressure 제어 로직을 구현할 것. 특히 Little's Law를 통해 Concurrent Request 수를 산정하여 인프라 자원과 API 쿼터 간의 정밀한 균형점을 설정할 것.