Claude Code 사용자들이 예상보다 빠르게 사용량 제한에 도달하고 있으며, 이는 prompt caching 버그와 최적화 미흡이 주요 원인으로 분석됨

Anthropic admits Claude Code users hitting usage limits 'way faster than expected'

Tim Anderson2026년 3월 31일3분intermediate

AI 요약

Context

Claude Code 사용자들이 토큰 사용량 급증 문제로 작업이 중단되고 있다. Anthropic은 사용자들이 예상보다 훨씬 빠르게 사용량 제한에 도달하고 있다며 조사 중이라고 인정했다. 사용자들은 1시간 만에 Max 5 플랜 할당량을 소진하거나, 한 달 30일 중 실제로 사용할 수 있는 날이 12일뿐이라는 불편을 호소하고 있다. Claude Code에서 reverse engineering을 수행한 사용자는 prompt cache를 손상시키는 두 개의 독립적인 버그를 발견했으며, 이로 인해 비용이 10-20배 증가한다고 보고했다.

Technical Solution

Prompt cache의 기본 수명은 5분이며, 짧은 중단 후 재개 시 캐시가 만료되어 추가 비용이 발생한다
Cache 수명을 1시간으로 확장할 수 있으나, 쓰기 토큰 비용이 기본 입력 토큰 가격의 2배로 상승한다
Cache 읽기 토큰 비용은 기본 가격의 0.1배 수준으로, 읽기 최적화가 비용 절감의 핵심이다
Claude Code 2.1.34 버전으로 다운그레이드하면 cache 버그로 인한 추가 비용이 현저하게 감소한다
자동화된 워크플로우에서 rate-limit 에러를 명시적으로 처리하지 않으면 일반적인 실패로 인식되어 재시도가 반복되고, 수 분 만에 일일 예산이 소진될 수 있다

Impact

버그 수정 후 비용 10-20배 절감 확인

Key Takeaway

Claude Code와 같은 AI 코딩 도구 사용 시 cache 수명 설정과 rate-limit 에러 처리를 선제적으로 구현해야 예상치 못한 비용 증가를 방지할 수 있다

실천 포인트

Claude Code 기반 자동화 워크플로우에서 prompt cache 읽기 활용과 rate-limit 에러 명시적 처리를 구현 시 토큰 비용을 최적화하면서 서비스 중단을 방지할 수 있다

태그

#Prompt Caching #Claude-Code #Token Optimization #Rate Limiting #Anthropic

원문 읽기